正規分布と平均

マウスの体重や植物の草丈の長さなどを測定し、得られたデータから何らかの特徴を見出したい場合は、そのデータの分布の中心を求めることになる。分布の中心として、平均値、中央値、最頻値など様々な指標があるが、とりわけ平均値がよく利用される。

平均値をよく用いられるのは、平均値が(正規分布に従う)データの分布の中心を表す指標として尤もらしいからである。

例えば、n 個の観測値 x1, x2, ..., xn があるとする。n 個のデータが同じ正規分布 N(μ, σ) に従うとすると、xi が観測される確率は、正規分布の密度関数 φ(xi) によって書き表すことができる。すなわち、

\[ \phi (x_{i})= \frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right) \]

そこで、x1, x2, ..., xn が同時に観測される確率を L とおくと、L は次のように書き表せる。(L を尤度関数という)

\[ L = \prod^{n}_{i=1} \phi (x_{i})= \prod^{n}_{i=1} \frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right) \]

L は掛け算のため、実際に計算しようとすると、非常に時間がかかる。そこで、これを対数化させる。(これを対数尤度関数という)

\[ \begin{eqnarray} \ln(L) &=& \sum^{n}_{i=1} log\left(\frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right)\right) \\ &=& n\ln\left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \frac{1}{2}\sum^{n}_{i=1}\left(\frac{x - \mu}{\sigma}\right)^{2} \end{eqnarray} \]

対数尤度 ln(L) 最大にするパラメータ μ を求める。ln(L) を μ について微分する。

\[ \frac{d \ln(L)}{d\mu} = 0 \Longleftrightarrow \sum^{n}_{i=1}\frac{(x_{i} - \mu)}{\sigma^{2}} = 0\]

よって、ln(L) を最大にする μ は、

\[ \sum^{n}_{i=1}\frac{(x_{i} - \mu)}{\sigma^{2}} = 0 \Longleftrightarrow \mu = \frac{1}{n}\sum_{i=1}^{n}x_{i}\]

つまり、最尤法により、データが正規分布に従うとき、データの中心を表す指標として平均値が最も相応しいであることが証明される。そのために、マウスの体重などデータの特徴を計算する際に、平均値などを用いたりする。このことからもわかるように、データが正規分布でなければ、平均値が相応しくない場合もある。