標本分散と不偏分散

分散は標本分散 (sample variance) と不偏分散 (unbiased variance) の 2 種類がある。標本分散は標本から計算した分散であり、母集団に比べ標本数が少ない時は、標本分散が母分散よりも小さくなる。そこで、標本分散が母分散に等しくなるように補正したものを不偏分散という。統計の分野では不偏分散を用いられることが多い。

n 個の標本 x1, x2, ..., xn があり、その平均値を \(\bar{X}\) としたとき、標本分散は次のように求められる。

\[ s^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2 \]

一方、不偏分散は次のように求められる。

\[ \hat{\sigma}^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2 \]

標本分散と母分散の誤差

標本分散と母分散の間に存在する誤差を計算する。まず、標本分散の定義式に \(x_{i}-\bar{X}=x_{i}-\mu -(\bar{X}-\mu)\) を代入し、式変形する。

\[ \begin{eqnarray} s^{2} &=& \frac{1}{n}\sum (x_{i}-\bar{X})^{2} \\ &=& \frac{1}{n}\sum \left( (x_{i}-\mu)^{2} -2(x_{i}-\mu )(\bar{X}-\mu )+(\bar{X}-\mu )^{2} \right) \\ &=& \frac{1}{n}\sum (x_{i}-\bar{X})^{2} -2(\bar{X}-\mu )\sum (x_{i}-\mu) + (\bar{X}-\mu)^{2} \\ &=& \frac{1}{n}\sum (x_{i}-\bar{X})^{2} -2(\bar{X}-\mu )^{2}+ (\bar{X}-\mu)^{2} \\ &=& \frac{1}{n}\sum (x_{i}-\bar{X})^{2} -(\bar{X}-\mu )^{2} \end{eqnarray} \]

このとき、標本分散の期待値を求めると、次のようになる。

\[ E(s^{2})=\frac{1}{n}\sum E\left( (x_{i}-\mu)^{2}\right) - E\left( (\bar{X}-\mu)^{2}\right) \]

一方、n 個のデータが平均 μ、分散 σ2 である母集団に属するので、このとき、分散は次のように計算することもできる。

\[ \sigma^{2}=E\left( (x_{i}-\mu)^{2} \right) \]

そこで、標本分散の期待値に上式を代入すると、以下のようになる。

\[ E(s^{2})=\sigma^{2} - E\left( (\bar{X}-\mu)^{2} \right) \]

すなわち、標本分散(の期待値)は母分散に比べ \(E\left( (\bar{X}-\mu)^{2} \right)\) だけ小さい。標本分散は母分散と同等ではないので、「不偏性」がない。

不偏分散

標本分散は母分散に比べ、\(E\left( (\bar{X}-\mu)^{2} \right)\) だけ小さい。この誤差を補正した分散を不偏分散という。

まず、平均μ、分散σ2 の母集団ついては、次の関係が成り立つ。

\[ E\left( (\bar{X}-\mu )^{2}\right)=\frac{1}{n}\sum E\left( (x_{i}-\mu )^{2}\right) =\frac{1}{n}\sigma^{2} \]

これを標本分散の期待値の式に代入する。

\[ E(s^{2})=\sigma^{2} - E\left( (\bar{X}-\mu)^{2} \right) = \sigma^{2}-\frac{1}{n}\sigma^{2} \]

よって、

\[ \sigma^{2}=\frac{n}{n-1}s^{2}=\frac{n}{n-1}\left( \frac{1}{n}\sum (x_{i}-\bar{X})^{2} \right)=\frac{1}{n-1}\sum (x_{i}-\bar{X})^{2} \]

ここで、\( \hat{\sigma}^{2}=\frac{1}{n-1}\sum (x_{i}-\bar{X})^{2} \)とおくと、

\[ \sigma^{2} = \hat{\sigma}^{2} \]

置き換えによって、\(\hat{\sigma}^{2}\) と \(\sigma^{2}\) が同等になることが確認できる(不偏性を持つ)。統計学では不偏分散の方がよく利用される。

\[ \hat{\sigma}^{2}=\frac{1}{n-1}\sum (x_{i}-\bar{X})^{2} \]