緑茶思考ブログ

【データ解析のための統計モデリング入門】1章データを理解するために統計モデルを作る

統計

データ解析のための統計モデリング入門を読んでいる。
その読書メモ。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者: 久保拓弥
出版社/メーカー: 岩波書店
発売日: 2012/05/19
メディア: 単行本
購入: 16人クリック: 163回
この商品を含むブログ (29件) を見る

統計モデル：なぜ「統計」な「モデル」？

統計モデルは以下の特徴を持つ数理モデル。

観察によってデータ化された現象を説明するために作られる
確率分布が基本的な部品であり、これはデータに見られるばらつきを表現する手段
データとモデルを対応づける手続きが準備されていて、モデルがデータにどれぐらいよく当てはまっているかを定量的に評価できる

「ブラックボックスな統計解析」の悪夢

理解しないままソフトウェアやツールを使う作法は、擬似科学にほかならない。この端的な例として、

有意差が出るまで色んな検定手法を試す。
観測値の割り算によって新たな指標を作り出す

などがある。

一般化線形モデルの導入とベイズ的な拡張

直線回帰や分散分析は「データのバラつきが等分散正規分布」であることを仮定している。
このような手法は線形モデル（linear model, LM)と呼ばれている。

線形モデルに対しては、上記の直線回帰や分散分析で事足りるが、正規分布でないデータのばらつきに対しLMを適用するのはダメ。一般化線形モデル（GLM）は「何でもかんでも正規分布ってのはおかしい」という方向への拡張し最尤法やMCMCなどを使おうという話。

まとめ

観測データは自然現象のごく一部をきりとったものであり、そこに見られるパターンを要約したり、未観測の挙動を予測するために統計モデルが必要である
研究者は統計モデルを理解しないで進める「ブラックボックス」データ解析に陥りがち。

参考

「統計モデリングとは何なのか」をいま一度整理してみる - 六本木で働くデータサイエンティストのブログ

yusuke-ujitoko.hatenablog.com