【データ解析のための統計モデリング入門】4章 GLMのモデル選択

データ解析のための統計モデリング入門を読んでいる。
その読書メモ。

この章では

  • 良い統計モデルとは何か
  • 良いモデルを選択する方法

について扱う。

大抵複雑な統計モデルほどあてはまりが良くなるため、 「あてはまりが良いモデルが良いモデル」という考え方は正しくない。

この章では、AICというモデル選択基準を紹介する。
AICは「良い予測をするモデルが良いモデルである」という考えの基準。

統計モデルのあてはまりの悪さ:逸脱度

まず逸脱度について紹介。 逸脱度{D}とは、あてはまりの良さである最大対数尤度{L}を以下のように変形した統計量。 {} $$ D = -2 \log L $$

通常、フルモデルの逸脱度をこの逸脱度から引いた、残差逸脱度で評価される。
フルモデルの逸脱度とは、全てのデータ数のパラメータを用意してあてはめたモデルのこと。
フルモデルは全データを読み上げているだけで、統計モデルとしての価値はない。
その対数尤度を用いた逸脱度を評価として用いているということ。

この逸脱度を使った評価では、パラメータの数が多いモデルほど残差逸脱度が小さくなり、あてはまりが良くなる。

モデル選択基準AIC

パラメータ数の多いモデルほど、データへのあてはまりが良くなる。
しかし、それは「たまたま得られたデータへの当てはめ向上を目的とする特殊化」であり、その統計モデルの「予測の良さ」を残っている。

なぜAICでモデル選択してよいのか?

統計モデルの予測の良さ:平均対数尤度

最大対数尤度とは、推定された統計モデルが真の統計モデルに似ているかどうかではなく、 たまたま得られた観測データへのあてはまりの良さである。

データ解析の本来の狙いは、観測された現象の背後にある「しくみ」の特定、もしくはそれを近似的に代替しうる統計モデルの構築と考えてよい。
ところが、実際のデータ解析では「たまたま得られた」データへのあてはまりの良さを追求しがちである。

推定されたモデルが、真の統計モデルにどれくらい近いのかを調べる方法として、予測の良さを評価するのが適切。
そこで、真のモデルがわかっているときには、新のモデルから評価用のデータを新たに生成して、推定されたモデルの当てはまりの良さを対数尤度で評価する。
この各データに対する尤度の平均が平均対数尤度である。

AIC

AICは、{k}最尤推定したパラメータ数、{\log L}を最大対数尤度として、

{} $$ 平均対数尤度 = (\log L - k) $$

「統計モデルの予測の良さ」を表す平均対数尤度に、-2を掛けたものがAICとなる。
AICは予測の悪さと解釈できる。

まとめ

この章ではモデル選択基準であるAICの使い方と、その背景にある理屈を理解した。

  • あるデータに見られるパターンを説明できるような、いろいろな統計モデルの中から最良なものを選ぶのに、「当てはまりの良さ」最大対数尤度で選んでよいのだろうか?
  • モデルを複雑化するだけで、観測データへのあてはまりの良さである最大対数尤度は改善される。モデルでの複雑さを考慮したAICでモデルを選択しなければならない。
  • モデル選択基準は、統計モデルの予測の良さである平均対数尤度の推定値である。これは最大対数尤度のバイアス補正によって評価される。

と表せる。

yusuke-ujitoko.hatenablog.com