ウホウホゴリラッホ

主に勉強したことをまとめていきます。twitter:@pytran3

不偏分散のn-1のお気持ち

お気持ち記事なので後日大幅に加筆修正するかもしれない。

PRMLにこのお気持ちっぽい記述があった。(2019/06/06加筆)

不偏分散のn-1とは

母平均を標本平均から最尤推定すると以下のようになり、このような単なる等号で結ばれる関係を不偏推定量と呼ぶ。

\mu = E(\overline{X})

さて件の分散についてであるが、以下のような不偏推定量が存在する。

\sigma^2 = \frac{n}{n-1} E(S^2) = \frac{1}{n-1} \sum_i^n (X_i - \overline{X})^2

標本ほげふがを計算する場合には標本数で割るのが自然であると思われるが、不偏分散ではn-1で割られている。

n \to n-1のお気持ち

計算上そうなることはわかる。が、平均に推定量が割り当てられている分自由度が下がりn-1になる、などとという世間の説明はお気持ちがあまりわからない。
以下では標本分散では母分散を過少に評価してしまうことに関する自分のお気持ちを記す。

お気持ち表明

実際に標本分散は平均に標本平均を採用することにより母分散よりも小さくなっている。これは以下の式でYについての最小値を考えると理解できる。

 f(Y) = \sum_i^n (X_i - Y)

最小値を与えるYは以下である。T微分を考えることでわかる。

Y = \frac{1}{n} \sum_i^n X_i = E(\overline{X})

標本平均は母平均の不偏推定量であるが当然真値であることは保証されない。Yに母平均を採用した場合には母分散の不偏推定量となりそう(なる?)だがこれは標本分散よりも大きい値となる。(最小値を与えるのは標本平均なので)
以上から母平均と標本平均との差がn-1に表れる差とみなせそう。(めんどくさくなって論理が飛躍してしまった気がする)n \to \inftyで母平均と標本平均との差は0となることと\frac{n}{n-1} \to 1となることから納得感がある。