【Python】【16】Pandasを利用してデータ分析をしてみよう①
【記事の目標】
Pandasを利用してデータ分析(計算)してみよう。
【作業手順】
1.Pandasをインストール
2.Pandasをインポート
3.テストデータを作成して読み込もう
4.列の合計を出してみよう
5.列の平均を出してみよう
6.列の中央値を出してみよう
7.列の最大値を出してみよう
8.列の最小値を出してみよう
9.列のデータ数を出してみよう
1.Pandasをインストール
以下記事の「1.」と「2.」の手順で実施しましょう。
【Python】【14】Pandasを利用して表を表示してみよう
2.Pandasをインポート
以下のようにインポートしましょう。
import pandas as pd
これで、Pandasが利用できるようになりました。
3.テストデータを作成して読み込もう
今回は計算に利用するデータを定義していきます。
以下のように、ユーザごとのスコアを設定してみましょう。
このファイルを「blog_test_3.csv」で保存しましょう。
私の場合は以下のように保存しています。
では、このファイルを読み込みましょう。
data = pd.read_csv('./csv/blog_test_3.csv', index_col='user')
index_col を指定して読み込ませます。
4.列の合計を出してみよう
ではまず、列の合計を出してみましょう。
sumResult = data['score'].sum()
print('sumResult:', sumResult)
列の合計は、合計したい列名を指定して、sum()を実行します。
data['列名'] で合計したい列を指定しています。
では、実行してみましょう。
50+98+25+13+88=274
合っていますね。
5.列の平均を出してみよう
次は、列の平均を出してみましょう。
meanResult = data['score'].mean()
print('meanResult:', meanResult)
列の平均は、平均値を出したい列名を指定して、mean()を実行します。
では、実行してみましょう。
274÷5=54.8
合っていますね。
6.列の中央値を出してみよう
次は、列の中央値を出してみましょう。
medianResult = data['score'].median()
print('medianResult:', medianResult)
列の中央値は、中央値を出したい列名を指定して、median()を実行します。
では、実行してみましょう。
データは値の大きい順に 98, 88, 50, 25, 13 ですね。
真ん中の 50 が取得できているので、合っていますね。
7.列の最大値を出してみよう
次は、列の最大値を出してみましょう。
maxResult = data['score'].max()
print('maxResult:', maxResult)
列の最大値は、最大値を出したい列名を指定して、max()を実行します。
では、実行してみましょう。
一番大きい値は 98 なので、合っていますね。
8.列の最小値を出してみよう
次は、列の最小値を出してみましょう。
minResult = data['score'].min()
print('minResult:', minResult)
列の最小値は、最小値を出したい列名を指定して、min()を実行します。
では、実行してみましょう。
一番小さい値は 13 なので、合っていますね。
9.列のデータ数を出してみよう
最後に、列のデータ数を出してみましょう。
countResult = data['score'].count()
print('countResult:', countResult)
列のデータ数は、データ数を出したい列名を指定して、count()を実行します。
では、実行してみましょう。
今回設定したデータ数は 5件 なので、合っていますね。
今回は少しステップが多かったですが、それぞれ簡単に書けて、すぐ実行できるので、楽しく実践できたのではないでしょうか。
Pandasはまだまだやれることがあるので、分割して記事にしようと思っています。