百折不撓

データ系の新米エンジニアとして戦闘中。

How awesome it is!!

 つい先ほど、pandas-profilingというライブラリを知りました。簡単に言うとdataframeの各列の基礎統計?をしてくれます。それをhtml形式とかでも保存できるっぽいです。

df.describe() 

みたいな事してもいいですが、ヒストまで出したり、value_counts()とその全体での割合とかも出してくれるので、ちょっと触ってみた感じどちゃクソ便利です。

簡単な使い方は以下の感じ。

import pandas-profiling as pdprof

df = pd.read_csv("./hoge.csv", parse_dates=True, encoding='UTF-8') 
#読み込む際のオプションは、こうしなければならないか不明。詳細は本記事最下の参考記事

df_profile = pdprof.ProfileReport(df)
df_profile.to_file("student_mat_profile.html") #html形式で出力内容を保存できるみたいです。超キレイ!

jupyter labのnotebook内だとなぜか型崩れして見にくかったので、html形式で保存したらとても見やすくざっと眺める意味ではとてもよいとおもいました

参考記事
【Python】 Pandas-Profilingを使ってみた - St_Hakky’s blog