誤差構造,連結関数,線形予測子

確率変数 Yi が次の条件を満たすとき、一般化線形モデルを当てはめることができる。

  • 確率変数 Yi (i = 1, 2, ..., n) は同じ指数型分布族に従う。
  • 確率変数 Yi (i = 1, 2, ..., n) は正準形を持つ。すなわち、次の確率分布によって表される。(関数 b、c、d は既知とする。)
    \[ f(y_{i};\theta_{i}) = \exp\left( y_{i}b_{i}(\theta_{i}) + c(\theta_{i}) + d(y_{i}) \right) \]

一般化線形モデルは 3 つの要素で構成される。

  • 誤差構造 error structure / random component
  • 線形予測子 linear predictor
  • 連結関数 link function

誤差構造

誤差構造は確率分布を表す。例えば、計数データならばポアソン分布と、連続値ならば正規分布などのように決定する。

例えば、n 個の確率変数(観測値)Yi (i = 1, 2, ..., n) があり、それらは m 個のパラメーター θ によって決定されるモデルの場合、n 個の確率変数の同時確率関数は次のように書ける。実際のパラメーターの数はモデルによって異なる。例えば、ポアソン分布においては 1 つとする場合がある。

\[ f(y_{1}, \cdots, y_{n}; \theta_{1}, \cdots, \theta_{m}) = \prod_{i=1}^{n}\exp\left( y_{i}b_{i}(\theta_{i}) + c(\theta_{i}) + d(y_{i}) \right) \]

線形予測子

次に、線形予測子に関しては次のよう定義する。

\[\eta = \beta_{0} + \beta_{1}x_{1} + \cdots + \beta_{p}x_{p} = \mathbf{x}^{T}\mathbf{\beta}\]

x はデザイン行列と呼ばれ、確率変数とモデルのパラメーター間の関係を制御する。例えば、以下の Y = におけるデザイン行列 x において、確率変数は Y1 は β1 と β2 の2 つのパラメーターに影響されるが、Y2 は β2 のみに影響されることを意味する。

\[ \begin{pmatrix} Y_{1} \\ Y_{2} \\ Y_{3} \\ Y_{4} \\ Y_{5} \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ 0 & 1 \\ 0 & 1 \\ 1 & 0 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} \beta_{1} \\ \beta_{2} \\ \end{pmatrix} \]

デザイン行列は 0 または 1 のように因子で構成されることも、1.2 や 2.3 などのようにパラメーターの加重として構成されることもできる。デザイン行列を因子とするか、加重とするかは解析するデータの特徴に合わせて決める必要がある。また、同じデータに対して、どんな結果を期待したいかによってもデザイン行列の作り方が異なってくる。従って、実験などを行う前に、どんな結果を期待しているのかを予め決定した上で実験を行うべきである。

連結関数

最後に、連結関数に関しては、次のように定義する。

\[ \eta = g(\mu_{i}) = \mathbf{X}^{t}_{i} {\mathbf \beta} \]

回帰分析、分散分析や主成分分析などの一般線形モデルは、データの平均 μ に着目して解析を行っている。これに対して、一般化線形モデルは、μ ではなく「μ の関数」に着目している、といえる。

連結関数 g に関しては、誤差構造を考慮して決定される。以下にいくつかの例を示す。

誤差構造 連結関数
正規分布 \[g(\mu) = \mu\]
指数分布 \[g(\mu) = -\mu\]
ポアソン分布 \[ g(\mu) = log\mu \]
二項分布 \[ g(\mu) = log\frac{\mu}{1-\mu} \]