【データ解析のための統計モデリング入門】1章 データを理解するために統計モデルを作る

データ解析のための統計モデリング入門を読んでいる。
その読書メモ。

統計モデル:なぜ「統計」な「モデル」?

統計モデルは以下の特徴を持つ数理モデル

  • 観察によってデータ化された現象を説明するために作られる
  • 確率分布が基本的な部品であり、これはデータに見られるばらつきを表現する手段
  • データとモデルを対応づける手続きが準備されていて、モデルがデータにどれぐらいよく当てはまっているかを定量的に評価できる

ブラックボックスな統計解析」の悪夢

理解しないままソフトウェアやツールを使う作法は、擬似科学にほかならない。 この端的な例として、

  • 有意差が出るまで色んな検定手法を試す。
  • 観測値の割り算によって新たな指標を作り出す

などがある。

一般化線形モデルの導入とベイズ的な拡張

直線回帰や分散分析は「データのバラつきが等分散正規分布」であることを仮定している。
このような手法は線形モデル(linear model, LM)と呼ばれている。

線形モデルに対しては、上記の直線回帰や分散分析で事足りるが、 正規分布でないデータのばらつきに対しLMを適用するのはダメ。 一般化線形モデル(GLM)は「何でもかんでも正規分布ってのはおかしい」という方向への拡張し最尤法やMCMCなどを使おうという話。

まとめ

  • 観測データは自然現象のごく一部をきりとったものであり、そこに見られるパターンを要約したり、未観測の挙動を予測するために統計モデルが必要である
  • 研究者は統計モデルを理解しないで進める「ブラックボックス」データ解析に陥りがち。

参考

「統計モデリングとは何なのか」をいま一度整理してみる - 六本木で働くデータサイエンティストのブログ

yusuke-ujitoko.hatenablog.com