データ解析のための統計モデリング入門を読んでいる。
その読書メモ。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
一般化線形モデル(GLM)は確率分布・リンク関数・線形予測子を組み合わせて、応答変数と説明変数を関連付けるシステム。
でも現実のデータ解析には応用しづらい。
その理由は、実際の実験や調査で得たカウントデータのばらつきは、ポアソン分布や二項分布だけではうまく説明できないこと。
現実の世界では「説明変数以外はすべて均質」という条件は満たされない。
問題はデータにばらつきをもたらす「個体間の差異」を定量化できないところ。
でも「なんか分からないが個体差がある」ことを統計モデルで表現することはできる。
この章ではこのような人間が測定できない、測定しなかった個体差を組み込んだGLMである一般化線形混合モデル(Generalized Linear Mixed Model:GLMM)を扱う。
このGLMMは
というモデル。
個体間のばらつきとして「各個体のなにかに起因しているように見える差」を定量化・特定することはどうやっても不可能。
したがって、原因不明のままこれらの及ぼす影響をうまく取り込んだ統計モデルが必要となる。
一般化線形混合モデル
種子の生存確率として、個体の個体差を表すパラメータを考慮してみる。 $$ logit(q_i) = \beta1 + \beta_2 x_i + r_i $$
GLMMの特徴は、個体差を表すパラメータが何かの確率分布に従っていると仮定するところ。
とりあえず平均ゼロで標準偏差の正規分布に従うと仮定する。
なぜ「混合」モデルと呼ばれるか。 統計モデルに線形予測子が含まれる場合、その構成要素は伝統的に固定効果(fixed effects)とランダム効果(random effects)に分類されてきた。 線形予測子に、固定効果とランダム効果の表す項をもっているので、そのようなGLMは混合(mixed)モデルと呼ばれる。
一般化線形混合モデルの最尤推定
GLMMに含まれている個体差は最尤推定できない。
なぜなら、例えば100個のデータを説明するために、100個のを使っているから。
100個しかデータがないのに、100個のとその他のパラメータを推定するのは無理。
個体差は最尤推定できないにもかかわらず、を最尤推定したいときにはどうするか。
このような時の対処法の一つとしては、個体ごとの尤度の式の中で、を積分する。
$$
L_i = \int_{-∞}^{∞} p(y_i | \beta_1, \beta_2, r_i)p(r_i|s)dr_i
$$
このようにすると尤度からが消える。
このように無限個の二項分布を混ぜることで、平均よりも分散の大きい過分散な確率分布を作れる。
確率分布を混ぜて新しい確率分布を作るというのは、統計モデルづくりの基本的な技法の一つ。
現実のデータ解析にはGLMMが必要
GLMMのような考え方が必要になるかどうかの判断のポイントは、「同じ個体、場所などから何度もサンプリングしているか」あるいは「個体差や場所さが識別できてしまうようなデータのとり方をしているか」といったところにある。
まとめ
- 現実のデータではGLMをうまくあてはめられない場合がある
- GLMでは「説明変数が同じならどの個体も均質」と仮定していたが、観測されていない個体差があるので、集団全体の生存種子数の分布は二項分布で期待されるより過分散なものになる
- このような状況に対応しているGLMMとは、線形予測子に個体差のばらつきを表すパラメータを追加し、全個体のパラメータがある確率分布に従うと仮定した統計モデルである
- 積分によってを消去した尤度を最大化することで、GLMMの切片・傾きそしてのばらつきといった、大域的なパラメータを最尤推定できる
- 一つの個体から複数のデータをとったり、一つの場所に多数の調査対象がいるような状況は擬似反復と呼ばれ、このような構造のデータに統計モデルを当てはめるときには、個体差、場所さなどを組み込んだGLMMが必要である
- データのばらつきを表す確率分布の種類がどのようなものであっても、個体差・場所さなどに影響されるデータの部分集合があれば、これらの効果をランダム効果として組み込んだ統計モデルで推定しなければならない。