データ解析のための統計モデリング入門を読んでいる。
その読書メモ。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
統計モデル:なぜ「統計」な「モデル」?
統計モデルは以下の特徴を持つ数理モデル。
- 観察によってデータ化された現象を説明するために作られる
- 確率分布が基本的な部品であり、これはデータに見られるばらつきを表現する手段
- データとモデルを対応づける手続きが準備されていて、モデルがデータにどれぐらいよく当てはまっているかを定量的に評価できる
「ブラックボックスな統計解析」の悪夢
理解しないままソフトウェアやツールを使う作法は、擬似科学にほかならない。 この端的な例として、
- 有意差が出るまで色んな検定手法を試す。
- 観測値の割り算によって新たな指標を作り出す
などがある。
一般化線形モデルの導入とベイズ的な拡張
直線回帰や分散分析は「データのバラつきが等分散正規分布」であることを仮定している。
このような手法は線形モデル(linear model, LM)と呼ばれている。
線形モデルに対しては、上記の直線回帰や分散分析で事足りるが、 正規分布でないデータのばらつきに対しLMを適用するのはダメ。 一般化線形モデル(GLM)は「何でもかんでも正規分布ってのはおかしい」という方向への拡張し最尤法やMCMCなどを使おうという話。
まとめ
- 観測データは自然現象のごく一部をきりとったものであり、そこに見られるパターンを要約したり、未観測の挙動を予測するために統計モデルが必要である
- 研究者は統計モデルを理解しないで進める「ブラックボックス」データ解析に陥りがち。