【データ解析のための統計モデリング入門】7章一般化線形混合モデル(GLMM)

データ解析のための統計モデリング入門を読んでいる。
その読書メモ。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者: 久保拓弥
出版社/メーカー: 岩波書店
発売日: 2012/05/19
メディア: 単行本
購入: 16人クリック: 163回
この商品を含むブログ (29件) を見る

一般化線形モデル（GLM）は確率分布・リンク関数・線形予測子を組み合わせて、応答変数 ${y_i}$ と説明変数 ${x_i}$ を関連付けるシステム。
でも現実のデータ解析には応用しづらい。
その理由は、実際の実験や調査で得たカウントデータのばらつきは、ポアソン分布や二項分布だけではうまく説明できないこと。
現実の世界では「説明変数以外はすべて均質」という条件は満たされない。

問題はデータにばらつきをもたらす「個体間の差異」を定量化できないところ。
でも「なんか分からないが個体差がある」ことを統計モデルで表現することはできる。

この章ではこのような人間が測定できない、測定しなかった個体差を組み込んだGLMである一般化線形混合モデル(Generalized Linear Mixed Model:GLMM)を扱う。
このGLMMは

データのばらつきは二項分布やポアソン分布で表す
個体間のばらつきは正規分布で表す

というモデル。

個体間のばらつきとして「各個体のなにかに起因しているように見える差」を定量化・特定することはどうやっても不可能。
したがって、原因不明のままこれらの及ぼす影響をうまく取り込んだ統計モデルが必要となる。

一般化線形混合モデル

種子の生存確率 ${q_i}$ として、個体 ${i}$ の個体差を表すパラメータ ${r_i}$ を考慮してみる。 ${}$ $$ logit(q_i) = \beta1 + \beta_2 x_i + r_i $$

GLMMの特徴は、個体差を表すパラメータ ${r_i}$ が何かの確率分布に従っていると仮定するところ。
とりあえず平均ゼロで標準偏差 ${s}$ の正規分布に従うと仮定する。

なぜ「混合」モデルと呼ばれるか。統計モデルに線形予測子が含まれる場合、その構成要素は伝統的に固定効果（fixed effects)とランダム効果（random effects)に分類されてきた。線形予測子に、固定効果とランダム効果の表す項をもっているので、そのようなGLMは混合（mixed)モデルと呼ばれる。

一般化線形混合モデルの最尤推定

GLMMに含まれている個体差 ${r_i}$ は最尤推定できない。
なぜなら、例えば100個のデータ ${y_i}$ を説明するために、100個の ${r_i}$ を使っているから。
100個しかデータがないのに、100個の ${r_i}$ とその他のパラメータを推定するのは無理。

個体差 ${r_i}$ は最尤推定できないにもかかわらず、 ${\beta_1, \beta_2}$ を最尤推定したいときにはどうするか。
このような時の対処法の一つとしては、個体ごとの尤度 ${L_i}$ の式の中で、 ${r_i}$ を積分する。
${}$ $$ L_i = \int_{-∞}^{∞} p(y_i | \beta_1, \beta_2, r_i)p(r_i|s)dr_i $$

このようにすると尤度から ${r_i}$ が消える。
このように無限個の二項分布を混ぜることで、平均よりも分散の大きい過分散な確率分布を作れる。

確率分布を混ぜて新しい確率分布を作るというのは、統計モデルづくりの基本的な技法の一つ。

現実のデータ解析にはGLMMが必要

GLMMのような考え方が必要になるかどうかの判断のポイントは、「同じ個体、場所などから何度もサンプリングしているか」あるいは「個体差や場所さが識別できてしまうようなデータのとり方をしているか」といったところにある。

まとめ

現実のデータではGLMをうまくあてはめられない場合がある
GLMでは「説明変数が同じならどの個体も均質」と仮定していたが、観測されていない個体差があるので、集団全体の生存種子数の分布は二項分布で期待されるより過分散なものになる
このような状況に対応しているGLMMとは、線形予測子に個体差のばらつきを表すパラメータ ${r_i}$ を追加し、全個体のパラメータ ${r_i}$ がある確率分布に従うと仮定した統計モデルである
積分によって ${r_i}$ を消去した尤度を最大化することで、GLMMの切片・傾きそして ${r_i}$ のばらつきといった、大域的なパラメータを最尤推定できる
一つの個体から複数のデータをとったり、一つの場所に多数の調査対象がいるような状況は擬似反復と呼ばれ、このような構造のデータに統計モデルを当てはめるときには、個体差、場所さなどを組み込んだGLMMが必要である
データのばらつきを表す確率分布の種類がどのようなものであっても、個体差・場所さなどに影響されるデータの部分集合があれば、これらの効果をランダム効果として組み込んだ統計モデルで推定しなければならない。

yusuke-ujitoko.hatenablog.com