【データ解析のための統計モデリング入門】2章 確率分布と統計モデルの最尤推定

データ解析のための統計モデリング入門を読んでいる。
その読書メモ。

確率分布(probability distribution)は統計モデルの本質的な部品であり、 データに見られるさまざまなバラつきを表現する。
この章では、「表現の部品としての確率分布」という考え方が説明されている。

ポアソン分布とは何か?

1時間(or1日or1月or1年…)に平均してλ回起こる事象が,1時間(あるいは…)にちょうどk回起きる確率は、 {} $$ p_k = \frac{λ^k e^{-λ}}{k!} $$ となる。このような分布をポアソン分布という。

import matplotlib.pyplot as plt
import numpy as np

# ポアソン分布に従ってデータ生成
pdata = np.random.poisson(lam=2.97,size=1000)

# ヒストグラムで確認
plt.hist(pdata, bins=np.arange(0, 15), normed=True)
plt.show()

f:id:yusuke_ujitoko:20170311142506j:plain

様々なλのポアソン分布

# さまざまなλのポアソン分布を描画
lam = np.zeros(3)
lam[0]=3
lam[1]=7
lam[2]=15

for i in lam:
    pdata = np.random.poisson(i,size=100000)
    pdata_hist = np.histogram(pdata, np.arange(0, 30))
    plt.plot(pdata_hist[0])

plt.show()

f:id:yusuke_ujitoko:20170311144220p:plain

ポアソン分布の性質

  • 確率分布の平均が{\lambda}である。
  • 分散と平均が等しい。

参考

http://oku.edu.mie-u.ac.jp/~okumura/stat/poisson.html http://www.f-denshi.com/000TokiwaJPN/17kakto/100prob.html

最尤推定

観測データに基づいて確率分布のパラメータを推定する方法の1つ。
最尤推定法は尤度という「あてはまりの良さ」を表す統計量を最大にするようなパラメータの値を探す。(今回はこのλを求める)

尤度の実態は、あるλの値を決めたときに、すべてのサンプル{i}についての{p(y_i | λ)}の積。
なぜ積になるかというと、すべての事象が同時に真である確率を計算したいから。

標準誤差について

標本によって、パラメータの推定値は異なる。
この推定値のバラつきは標準誤差と呼ばれ、その大きさは調査個体数に依存する。
調査個体数が大きいほど推定値の標準誤差は小さくなる。

まとめ

  • 確率分布は様々なので、データの特徴に合わせて確率分布を選ぶ必要がある
  • ポアソン分布はカウントデータのバラつきを表現できる確率分布である。
  • どのような確率分布に対しても「データに対するあてはまりの良さ」を対数尤度で表すことができ、最尤推定とは対数尤度を最大にするようなパラメータを探すことである。
  • データにあてはまるパラメータを探すのが推定、次のデータへのあてはまりを重視するのが予測
  • 簡単な確率分布を混ぜ合わせることで、現実にみられる複雑なバラつきに対処できる。

yusuke-ujitoko.hatenablog.com