スポンサーリンク

『不偏』標準偏差の計算で分母が”n-1″になる理由を今さら納得した

2020年11月4日

統計は嫌いです!数式は頑張れば理解できなくはないですが、面倒です。EZRを利用すれば実際の計算もかなり楽ですが、元データに変更が生じたりすることもあったり、図の微妙な調整もしたいので、極力Rでプログラミングしたいところです。

いろいろググっていたら、素晴らしいサイトを見つけました。

https://katosei.jsbba.or.jp/view_html.php?aid=1183

改訂増補版:統計検定を理解せずに使っている人のために I

スポンサーリンク

母集団と標本

我々が知りたいのは母集団(世界中の全ての特定の種類のマウス、N匹)のこと

しかし、実験できるのはその一部で、例えば6匹とかてある。標本。n=6

『母標準偏差』と『標本標準偏差』と『不偏標準偏差』

(引用ここから)

母分散を推定する不偏分散u2
 のルートがuであり,
不偏標準偏差と呼ばれる.

不偏標準偏差uこそが、
母集団のバラツキを推定したい研究者が一般的に用いる標準
偏差(standard deviation ; SD)である

(引用ここまで)

母集団の平均とばらつきに興味があるならば平均+-不偏標準偏差u(n-1で割る方)のグラフを描く

i番目の標本の値をxi、標本サイズn、標本平均xm、不偏標準偏差uとすると、

u = (((xiとxmの差の2乗を全て加えたもの)/(n-1))の平方根)

となり、表やグラフはxm +- u を記載するべきである。(uが、いわゆる標準偏差SDとなる。)

母集団に興味があるので、nで割って計算した標本標準偏差σ(シグマ)は使用すべきではない。

また、標準誤差SEはそもそも平均とは次元も異なり、母集団や標本のバラツキを表すのには不適格である。(平均がどのあたりに入るかの参考にはなるが、医療統計ではあまり利用する機会は無さそう。)

なお、nは『標本サイズ』と呼ぶのが正しいらしい。(参考:https://biolab.sakura.ne.jp/unbiased-standard-deviation.html )

Rのsd()関数は『不偏標準偏差』(n-1の方)を計算してくれている

# Rで不偏標準偏差を計算
x = c(56,45,72,65,58,63) 
sd = sd(x)

参考:http://cse.naro.affrc.go.jp/takezawa/r-tips/r/59.html

エクセルでは、STDEV.S 関数を用いて『不偏標準偏差』(n-1の方)を計算する

参考:https://atarimae.biz/archives/17854

ここまでどや顔でコピペしたが、不偏分散の平方根は,母標準偏差の不偏推定量ではないらしい

こんな記事を見つけてしまいました。

https://biolab.sakura.ne.jp/unbiased-standard-deviation.html

不偏標準偏差とは?:統計検定を理解せずに使っている人のために

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2018年11月4日

よくわからないが標準偏差は、Rでsd()で計算すればよい(私の中では)

やっぱり、統計学は深入りするのはやめます。

参考リンク

https://oku.edu.mie-u.ac.jp/~okumura/stat/var_or_varp.html

分散は n で割るか n − 1 で割るか

R

Posted by twosquirrel