望月の息抜き

在宅勤務の息抜きです。主にプログラミングについて書いていきたいと思います。

【Python】【16】Pandasを利用してデータ分析をしてみよう①

【記事の目標】

Pandasを利用してデータ分析(計算)してみよう。

 

【作業手順】

1.Pandasをインストール

2.Pandasをインポート

3.テストデータを作成して読み込もう

4.列の合計を出してみよう

5.列の平均を出してみよう

6.列の中央値を出してみよう

7.列の最大値を出してみよう

8.列の最小値を出してみよう

9.列のデータ数を出してみよう

 

1.Pandasをインストール

以下記事の「1.」と「2.」の手順で実施しましょう。

【Python】【14】Pandasを利用して表を表示してみよう

 

2.Pandasをインポート

以下のようにインポートしましょう。

 import pandas as pd

これで、Pandasが利用できるようになりました。

 

3.テストデータを作成して読み込もう

今回は計算に利用するデータを定義していきます。

以下のように、ユーザごとのスコアを設定してみましょう。

f:id:fysker:20220127214637p:plain

このファイルを「blog_test_3.csv」で保存しましょう。
私の場合は以下のように保存しています。

f:id:fysker:20220127214744p:plain

では、このファイルを読み込みましょう。

 data = pd.read_csv('./csv/blog_test_3.csv', index_col='user')

index_col を指定して読み込ませます。

 

4.列の合計を出してみよう

ではまず、列の合計を出してみましょう。

 sumResult = data['score'].sum()
print('sumResult:', sumResult)

列の合計は、合計したい列名を指定して、sum()を実行します。

data['列名'] で合計したい列を指定しています。

では、実行してみましょう。

f:id:fysker:20220127215201p:plain

50+98+25+13+88=274

合っていますね。

 

5.列の平均を出してみよう

次は、列の平均を出してみましょう。

 meanResult = data['score'].mean()
print('meanResult:', meanResult)

列の平均は、平均値を出したい列名を指定して、mean()を実行します。

では、実行してみましょう。

f:id:fysker:20220127215500p:plain

274÷5=54.8

合っていますね。

 

6.列の中央値を出してみよう

次は、列の中央値を出してみましょう。

 medianResult = data['score'].median()
print('medianResult:', medianResult)

列の中央値は、中央値を出したい列名を指定して、median()を実行します。

では、実行してみましょう。

f:id:fysker:20220127215910p:plain

データは値の大きい順に 98, 88, 50, 25, 13 ですね。

真ん中の 50 が取得できているので、合っていますね。

 

7.列の最大値を出してみよう

次は、列の最大値を出してみましょう。

 maxResult = data['score'].max()
print('maxResult:', maxResult)

列の最大値は、最大値を出したい列名を指定して、max()を実行します。

では、実行してみましょう。

f:id:fysker:20220127220147p:plain

一番大きい値は 98 なので、合っていますね。

 

8.列の最小値を出してみよう

次は、列の最小値を出してみましょう。

 minResult = data['score'].min()
print('minResult:', minResult)

列の最小値は、最小値を出したい列名を指定して、min()を実行します。

では、実行してみましょう。

f:id:fysker:20220127220328p:plain

一番小さい値は 13 なので、合っていますね。

 

9.列のデータ数を出してみよう

最後に、列のデータ数を出してみましょう。

 countResult = data['score'].count()
print('countResult:', countResult)

列のデータ数は、データ数を出したい列名を指定して、count()を実行します。

では、実行してみましょう。

f:id:fysker:20220127220848p:plain

今回設定したデータ数は 5件 なので、合っていますね。

 

 

今回は少しステップが多かったですが、それぞれ簡単に書けて、すぐ実行できるので、楽しく実践できたのではないでしょうか。

Pandasはまだまだやれることがあるので、分割して記事にしようと思っています。