重回帰分析

回帰分析は原因と結果、あるいは結果と結果の量的関係を見る分析手法の一つである。最も簡単な回帰分析の例として、一つだけの原因 x で、結果 y を説明できる場合である。このとき、x と y の関係は回帰式として表すことができる。x は独立変数、y は従属変数と呼ばれている。

\[ y = \beta_{0} + \beta_{1}x \]

例えば、植物に対して、成長ホルモンであるオーキシンを多く与えれば与えるほど茎の伸長率が大きい、という実験の場合は上式で説明できる。つまり、原因となる x は成長ホルモンの一つだけである。

一方、桜の開花日は気温、降雨量などに様々な要因が考えらられる。この場合は複数の原因があるため、複数個の x を必要とする。回帰分析はこのように独立変数 x が複数個のときも分析可能である。ここで一般化するために、考えらえっる原因が n 個あったとすると、回帰式は以下のように書ける。

\[ y = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + \cdots + \beta_{n}x_{n} \]

単回帰分析で説明したように、実験によって測定される y は測定誤差が含まれているため、理論上の y とずれている。ここでそのズレを e とする。

ここで、観測データが n セットあるものとする。

1 セット目y1x11y12...x1n
2 セット目y2x21y22...x2n
::...:
n セット目ynxn1yn2...xnn

i セット目のデータを回帰式に代入してみる。このとき、i セット目のデータは観測データであるため、理論式である回帰式にそのまま代入しても左辺と右辺は成り立たない。そこで、理論値の y と観測値の y の誤差を e と定義しているため、e を利用して理論値と観測値を補正する。

\[ y = y_{i} - e_{i} = \beta_{0} + \beta_{1}x_{i1} + \beta_{2}x_{i2} + \cdots + \beta_{n}x_{in} \]

そこで、観測値を理論値に近づけるためには、e を小さくすればよい。上式を式変形する。

\[ e_{i} = y_{i} - \beta_{0} - \beta_{1}x_{i1} - \beta_{2}x_{i2} - \cdots - \beta_{n}x_{in} \]

このとき、ei はプラスになったり、マイナスになったりする。そのため、計算しやすいように ei を 2 乗してから以降の計算を進める。

i セット目のデータについては ei の式が得られた。すべてのデータセットを考慮すると、n 個の e が求まる。この際に、e はすべて正数であるから、これらをすべて足して一括に扱う。

\[ S_{e} = \sum_{i=1}^{n}e_{i}^{2} = \sum_{i=1}^{n}(y_{i} - \beta_{0} - \beta_{1}x_{i1} - \beta_{2}x_{i2} - \cdots - \beta_{n}x_{in})^{2} \]

すべてのデータセットについて考えるとき、e を最小にすることは Se を最小にすることと同等である。そこで、Se を最小にすることについて考える。

xij および yi は観測値であるため、変化することはない。残る βk (k = 0,1, ..., n) を変数として扱い、Se を最小とするような βk を求めれば良い。

つまり、n + 1 個の βk それぞれについて偏微分を行い、その偏微分がゼロとなるような βk を求めればよい。n + 1 個の偏微分の式が得られるので、理論上 n + 1 個の βk がすべて求めることができる。

このように βk(k = 0, 2, ..., n) を求めることが(重)回帰分析である。

独立変数の選択

この例で見られるように、独立変数を n 個に設定できる。つまり、いくらでも独立変数を増やすことができる。独立変数を増やすことで分析結果の改善が見られるが、一般性を失ったり、全体の傾向を見失ったりする場合もある。むやみに独立変数を増やしてはならない。

独立変数を選択する方法として以下のような方法がある。

  • 実験の計画段階において、すでに重要と思われる要因(因子)を独立変数として選択する。
  • 考えられるすべての要因の全組合せを利用して回帰分析を行い、それぞれの解析結果についてを評価指標(AIC、Cp 統計量など)を用いて評価し、もっとも良かった組合せを利用する。
  • すべての要因それぞれについて、単独で回帰式に代入し分析を行う。結果のもっとも良かったものを残す。次に、この独立変数と、残りの独立変数から一つを選び、2 つの独立変数で回帰分析を行う。そのように逐次に独立変数を増やしていく。
  • 初めてにすべての要因を回帰式に代入し分析を行う。分析結果を眺めて、効果のもっとも薄いも独立変数を除き、再度回帰分析を行う。このように、逐次に独立変数を減らしていく。