相関

2 つの確率変数の間の類似性の度合いを表す指標として相関係数がある。相関係数は -1 から +1 までの値をとり、+1 に近いときは 2 つの確率変数には正の相関があるといい、-1 に近いときは両者には負の相関があるという。相関係数は以下に示すようなものがある。

ピアソンの積率相関係数

2 セットのデータ (xi, yi) (i = 1, 2, ..., n) に対して、ピアソンの積率相関係数 rxy は次のように求められる。

\[r_{xy} = \frac{\sum(x-\overline{x}) \sum(y-\overline{y})}{\sqrt{\sum(x-\overline{x})^{2}}\sqrt{\sum(y-\overline{y})^{2}}}\]

ただし、\(\overline{x}\) は xi (i = 1, 2, ..., n) の平均、\(\overline{y}\) は yi (i = 1, 2, ..., n) の平均を表す。

上式の分子は共変動とよばれ、相関の程度を表す。すなわち、2 つのデータに正の相関があるときには +1 に近い値を取り、負の相関があるときには -1 に近い値を取る。相関が弱い時 0 に近い値をとる。

また、分母は標準化する役割を果たす。分子を分母で割ることによって、相関係数は単位なしの無名数となるため、xi と yi の単位が異なっていても、相関を計算することができる。

xi (i = 1, 2, ..., n) の分散を σx2、yi (i = 1, 2, ..., n) の分散を σy2 とすると、相関係数は次のように書くことができる。

\[r_{xy} = \frac{\sigma_{xy}}{\sigma_{x}\sigma_{y}}\]

この式の分母は共分散とよばれ、次のように計算される。

\[\sigma_{xy} = \frac{1}{n}\sum (x_{i}-\overline{x})(y_{i} - \overline{y}) \]

R を利用してピアソンの積率相関係数を求める例。

x <- c(1.32, 2.32, 1.11, 2.42, 4.32, 2.01)
y <- c(4.61, 9.01, 3.92, 9.20, 9.86, 7.14)
cor(x, y, method = "pearson")
## [1] 0.8417847

スピアマンの順位相関係数

スピアマンの順位相関係数は、2 セットのデータ (xi, yi) (i = 1, 2, ..., n) に対して、まず、その順位 (x'i, y'i) (i = 1, 2, ..., n) を求め、その順を元に相関係数を計算する。

スピアマンの順位相関係数 ρxy は次のように計算される。

\[ \rho_{xy} = 1 - \frac{6\sum d_{i}^{2}}{n(n^{2}-1)} \]

ただし、di = x'i - y'i (i = 1, 2, ..., n) である。

R を利用してスピアマンの順位相関係数を求める例。

x <- c(1.32, 2.32, 1.11, 2.42, 4.32, 2.01)
y <- c(4.61, 9.01, 3.92, 9.20, 9.86, 7.14)
cor(x, y, method = "spearman")
## [1] 1

ケンドールの順位相関係数

R を利用してケンドールの順位相関係数を求める例。

x <- c(1.32, 2.32, 1.11, 2.42, 4.32, 2.01)
y <- c(4.61, 9.01, 3.92, 9.20, 9.86, 7.14)
cor(x, y, method = "kendall")
## [1] 1