データ解析のための統計モデリング入門を読んでいる。
その読書メモ。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
確率分布(probability distribution)は統計モデルの本質的な部品であり、
データに見られるさまざまなバラつきを表現する。
この章では、「表現の部品としての確率分布」という考え方が説明されている。
ポアソン分布とは何か?
1時間(or1日or1月or1年…)に平均してλ回起こる事象が,1時間(あるいは…)にちょうどk回起きる確率は、 $$ p_k = \frac{λ^k e^{-λ}}{k!} $$ となる。このような分布をポアソン分布という。
import matplotlib.pyplot as plt import numpy as np # ポアソン分布に従ってデータ生成 pdata = np.random.poisson(lam=2.97,size=1000) # ヒストグラムで確認 plt.hist(pdata, bins=np.arange(0, 15), normed=True) plt.show()
様々なλのポアソン分布
# さまざまなλのポアソン分布を描画 lam = np.zeros(3) lam[0]=3 lam[1]=7 lam[2]=15 for i in lam: pdata = np.random.poisson(i,size=100000) pdata_hist = np.histogram(pdata, np.arange(0, 30)) plt.plot(pdata_hist[0]) plt.show()
ポアソン分布の性質
- 確率分布の平均がである。
- 分散と平均が等しい。
参考
http://oku.edu.mie-u.ac.jp/~okumura/stat/poisson.html http://www.f-denshi.com/000TokiwaJPN/17kakto/100prob.html
最尤推定
観測データに基づいて確率分布のパラメータを推定する方法の1つ。
最尤推定法は尤度という「あてはまりの良さ」を表す統計量を最大にするようなパラメータの値を探す。(今回はこのλを求める)
尤度の実態は、あるλの値を決めたときに、すべてのサンプルについてのの積。
なぜ積になるかというと、すべての事象が同時に真である確率を計算したいから。
標準誤差について
標本によって、パラメータの推定値は異なる。
この推定値のバラつきは標準誤差と呼ばれ、その大きさは調査個体数に依存する。
調査個体数が大きいほど推定値の標準誤差は小さくなる。