分布の中心

データの特徴を表す指標(要約統計量)として平均値や分散がよく用いられる。特に、データの分布の中心を表す要約統計量としては平均値の他に、中央値や最頻値などがある。

データを解析する際に、すぐに平均値を求めるのではなく、まずヒストグラムを描いて、データの分布状態をおおまかに確認した後に、平均値を採用するか、中央値を採用するかを決めるべきである。また、分布の形により、平均値や中央値を利用することが相応しくない場合もある。

例えば、左下の図では平均値や中央値を採用できるが、右下の図では他の要約統計量を考える必要がある。

平均値や中央値が利用できる分布      平均値や中央値が利用できない分布

算術平均(相加平均) Sample Mean

n 個のデータ x1, x2, ..., xn に対して、その総和をデータ数で割ったも値が算術平均である。

\[ \frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n} \]

算術平均には次のような性質がある。

  • 平均\(\overline{X}\)からの偏差の和がゼロである。すなわち、\(\sum (x_{i}-\overline{X})\) である。
  • a, b を定数のとき、\(\overline{aX+b} = a\overline{X}+b \) が成り立つ。
  • xi (i = 1, 2, ..., nx) の平均を \(\overline{X}\)、yi (i = 1, 2, ..., ny) の平均を \(\overline{Y}\) としたとき、z = {x1, ... , y1, ...} の平均は \( \overline{Z} = \frac{n_{x}}{n_{x}+n_{y}}\overline{X}+\frac{n_{y}}{n_{x}+n_{y}}\overline{Y}\) である。
  • 任意の実数 a に対して、\(\sum(x_{i}-\overline{X}) \le \sum(x_{i}-a)\) が成り立つ。

R で算術平均を求める例。

x <- c(1, 3, 4, 56, 234, 12, 63, 4)
sum(x)/length(x)
## [1] 47.125

mean(x)
## [1] 47.125

幾何平均(相乗平均) Geometric Mean

n 個のデータ x1, x2, ..., xn が正のとき、幾何平均は次のように定義される。

\[ \sqrt[\frac{1}{n}]{\prod_{i=1}{n}x_{i}}=\sqrt[\frac{1}{n}]{x_{1}x_{2}\cdots x_{n}} \]

R を利用して幾何平均を求める例。

x <- c(1, 3, 4, 56, 234, 12, 63, 4)
prod(x)^(1/length(x))     #prod 関数はベクトル x の要素同士の積を求める関数
## [1] 12.15195

調和平均 Harmonic Mean

n 個のデータ x1, x2, ..., xn に対して、調和平均は次のように定義される。

\[\frac{n}{\sum_{i=1}^{n}\frac{1}{x_{i}}}=\frac{n}{\frac{1}{x_{1}}+\frac{2}{x_{2}}+\cdots +\frac{n}{x_{n}}}\]

R で調和平均を求める例。

x <- c(1, 3, 4, 56, 234, 12, 63, 4)
1/sum(1/x)*length(x)
## [1] 4.092762

中央値 Median

データを昇順に並べたとき、真ん中にある値を中央値という。データが偶数個のとき、中央にもっとも近い 2 つの値の相加平均を中央値という。

\[ {M_{e}=} \left\{ \begin{aligned} x_{k+1} & (n=2k+1) \\ \frac{x_{k}+x_{k+1}}{2} & (n=2k) \end{aligned} \right . \]
x <- c(1, 7, 39, 392, 100)
median(x)
## [1] 39

x <- c(10, 20, 30, 40)
## [1] 25

最頻値 Mode

データの中に、最も出現頻度の高い数値を最頻値という。データの個数が極端に少ない、或いは中心への集中傾向が弱いとき、最頻値が計算出来ない場合がある。

R では table 関数を利用して、各値の出現頻度を調べることができる。

x <- c(1, 3, 4, 3, 56, 3, 234, 12, 3, 63, 3)
y <- table(x)
y
## x
##   1   3   4   8  12  56  63 234 
##   1   3   2   1   1   1   1   1 

y[y == max(y)]  # 最頻値(3 が 5 回出現した)
## 3
## 5