Pythonのpandasで分散の値を求めた時の疑問(メモ)
統計学もPythonの知識が初心者でまだまだなのですが、勉強中に疑問に思ったことの記録(メモ)です。
pandasのvar()の値が、なんかおかしいと疑問に思い調べてみました。
pandasのvar()は、デフォルトでは不偏分散、numpyのvar()は標本分散
pandasでは、var(ddof=0)をする必要あり。
気付いてよかった(*´ω`*) アブナイ 、疑問を放置せず突っ込むのは大事ですね。
疑問に突っ込んだら、ちょっと沼ってしまいました。
「なぜ不偏分散は N-1 で割るのか」
参照文献
・標本分散と不偏分散
https://stats.biopapyrus.jp/stats/var.html
・標本分散と標本不偏分散,n で割るか n-1 で割るか,不偏標準偏差の話題も含めて
https://biolab.sakura.ne.jp/variance.html
・Python 統計〜NumpyとPandasでは分散 var() と標準偏差 std() のデフォルト値が違う
https://itstudio.co/2021/03/19/11249/
標本不偏分散の平方根は、不偏標準偏差ではないのね。この記事も目から鱗(*´ω`*)
・不偏標準偏差とは?:統計検定を理解せずに使っている人のために
https://biolab.sakura.ne.jp/unbiased-standard-deviation.html
ブログ、自前のローカルサーバのJupyter Notebookでメモってるので、投稿が減ってます。
Jupyter Notebookをブログに埋め込む方法を調べているのですが、今のところ見つからないです。
最近のコメント