【はじめてのパターン認識】第4章確率モデルと識別関数

はじめてのパターン認識を読んでいる。
その個人的メモ。

作者: 平井有三
出版社/メーカー: 森北出版
発売日: 2012/07/31
メディア: 単行本（ソフトカバー）
購入: 1人クリック: 7回
この商品を含むブログ (3件) を見る

標準化

学習データを構成する個々の特徴は、測定単位のとり方で大きな値になったり小さな値になったりするので、分布の形状もそれに伴って大きく変化する。

測定単位の影響を取り除く1つの方法が、個々の特徴を平均0、分散1に標準化すること。
天下り的に記述してしまうが、 ${x}$ の平均 ${\mu}$ と標準偏差 ${\sigma}$ を用いた線形変換 $$ z = \frac{x - \mu}{σ} $$ を考えると、 ${}$ $$ E \left\{ z \right\} = E\left\{ \frac{x - \mu}{σ}\right\} = \frac{1}{σ} (E \left\{x\right\} - \mu) = 0 \\ Var \left\{ z \right\} = E\left\{ \left( \frac{x - \mu}{σ} \right)^{2} \right\} = \frac{1}{σ^{2}} (E \left\{ (x - \mu)^{2} \right\} = 1 $$ このように、 ${z}$ の平均は0、分散は1となる。
特徴ごとに標準化を行うことで、測定単位の影響がない特徴ベクトルを構成することができる。

無相関化

観測データの特徴間の相関をなくす処理（無相関化）は主成分分析と深い関係がある。
こちらも天下り的に定義していく。

観測データから作られた共分散行列 ${\Sigma}$ の固有値問題 ${}$ $$ Σ s = \lambda s $$ を解いて得たd個の固有値を ${\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_d}$ 、対応する固有ベクトルを ${s_1, s_2, \cdots , s_d}$ とする。これらの固有ベクトルを並べて行列 ${}$ $$ S = (s_1, s_2, \cdots , s_d) $$ を定義する。共分散行列は実対称行列なので固有ベクトルは正規直交基底となっている。

観測データ ${x}$ を ${S^{T}}$ で線形変換することを考える。線形変換されたデータは ${y = S^{T} x}$ で与えられ、その平均値と共分散行列は、 ${}$ $$ E \left\{ y \right\} = E \left\{ S^{T} x \right\} = S^{T} \mu \\ \begin{align} Var \left\{ y \right\} &= E\left\{ \left(y - E \left\{ y \right\} \right) \left(y - E \left\{ y \right\} \right)^{T} \right\} \\ &= S^{-1} E\left\{ \left(y - E \left\{ y \right\} \right) \left(y - E \left\{ y \right\} \right)^{T} \right\} S \\ &= S^{-1} Σ S \end{align} $$

となる。最後の式は行列の対角化の式であり、 ${}$ $$ S^{-1} Σ S = \Lambda = \begin{bmatrix} \lambda_1 & 0 & 0 \\ 0 & \cdots & 0 \\ 0 & 0 & \lambda_d \end{bmatrix} $$ のように表される。これにより各特徴間の相互相関が0になる。これが観測データの無相関化という。

(参考）直交行列とは（定義，性質）

白色化

無相関化により各特徴間の相関はなくなるが、固有値に相当する分だけ、特徴量の標準偏差に違いが残る。この違いをなくして、全ての特徴量の標準偏差を1に正規化し、かつ中心化を行う操作を白色化（whitening)という。

白色化後の座標系を ${u = (u_1, \cdots, u_d)^{T}}$ とすれば、

${}$ $$ u = \Lambda^{-½} S^{T} (x - \mu) $$ で与えられる。
${\Lambda ^{-\frac{1}{2}}}$ は ${\Lambda}$ の各対角要素の平方根をとった行列の逆行列。この ${u}$ の共分散行列が単位行列となっている。このことを示していく。

${}$ $$ \begin{align} E \left\{ u \right\} &= \Lambda^{-½} S^{T}(E \left\{ x \right\} - \mu) \\ &= \Lambda^{-½} S^{T}(\mu - \mu) \\ &= 0 \end{align} $$

となるので、 ${u}$ の共分散行列は、

${}$ $$ \begin{align} Var \left\{ u \right\} &= E \left\{ uu^{T} \right\} \\ &= E \left\{ \Lambda^{-½} S^{T} \left(x - \mu \right) \left(x - \mu \right)^{T} S \Lambda^{-T/2} \right\} \\ &= \Lambda^{-½} S^{-1} E \left\{ (x - \mu)(x - \mu)^{T} \right\} S \Lambda^{-T/2} \\ &= \Lambda^{-½} S^{-1} Σ S \Lambda^{-T/2} \\ &= \Lambda^{-½} \Lambda \Lambda^{-T/2} \\ &= I \end{align} $$ となり、 ${u}$ の共分散行列が単位行列となることが示された。

標準化の場合は、それぞれの特徴の標準偏差が独立に1に正規化されるのに対して、白色化の場合は、回転と中心化を行った後に各軸の標準偏差が1に正規化される。したがって、どの方向に対してもデータ分布の標準偏差が単位超球上に乗るようになる。

パラメトリックモデルとノンパラメトリックモデル

学習データの分布を表現する場合、以下の2つに分けられる。

パラメトリックモデル
- 学習データから推定した統計量（パラメータ）を用いて構成した確率モデルで分布を表現する
- 例
  - 離散分布
    - 二項分布
    - 多項分布
    - ポアソン分布
  - 連続分布
    - 一様分布
    - 指数分布
    - 正規分布
ノンパラメトリックモデル
- 特定の確率モデルを仮定せず、学習データそのものを用いてデータの分布を表現する
- 例
  - ヒストグラム法
  - k最近傍法
  - パルツェン密度推定法

正規分布関数

一次元正規分布関数は次のように定義される。 ${}$ $$ \mathcal{N} (x|\mu,σ^{2}) = \frac{1}{\sqrt{2 \pi} σ} exp \left( - \frac{(x - \mu)^2}{2 σ^{2}}\right) $$

d次元の正規分布関数の場合は次のように定義される。 ${}$ $$ \mathcal{N} (x|\mu, Σ) = \frac{1}{{2 \pi}^{d/2} |Σ|^{½}} exp \left( - \frac{1}{2} (x - \mu)^T Σ^{-1} (x - \mu) \right) $$ ここで、 ${\mu}$ は平均ベクトル、Σは共分散行列を表す。
正規分布関数の指数部は、任意の点 ${x}$ と平均ベクトル ${\mu}$ との間の距離、 ${}$ $$ d(x, \mu) = \sqrt{(x - \mu)^T Σ^{-1} (x - \mu)} $$ を表している。これをマハラノビス距離という。ユークリッド距離を共分散行列で割り算しているので、分布の広がり方を考慮に入れた距離となっている。平均ベクトルからのマハラノビス距離が同じでも、分布の広がりが大きな方向の点までのユークリッド距離は、小さな方向の点までのユークリッド距離より大きくなる。

正規分布から導かれる識別関数

i番目のクラスのクラス条件付き確率が次の正規分布をしていると仮定して、ベイズの誤り率最小識別規則を満たす識別関数を求める。 ${}$ $$ P(x|C_{i}) = \frac{1}{{2 \pi}^{d/2} |Σ_{i}|^{½}} exp \left( - \frac{1}{2} (x - \mu_{i})^T Σ_{i}^{-1} (x - \mu_{i}) \right) $$ クラスの事前確率を ${P(C_{i}}$ とすれば、事後確率は、 ${}$ $$ P(C_{i}|x) ∝ \frac{P(C_{i})}{{2 \pi}^{d/2} |Σ_{i}|^{½}} exp \left( - \frac{1}{2} (x - \mu_{i})^T Σ_{i}^{-1} (x - \mu_{i}) \right) $$ となる。対数を取り、 ${}$ $$ \ln(P(C_{i})) - \frac{d}{2} \ln(2 \pi) - \frac{1}{2} \ln(|Σ_{i}|) - \frac{1}{2} (x - \mu_{i})^T Σ_{i}^{-1} (x - \mu_{i}) $$ となる。これを整理して以下のように ${g_{i}(x)}$ とおく。 ${}$ $$ g_{i}(x) = (x - \mu_{i})^T Σ_{i}^{-1} (x - \mu_{i}) + \frac{1}{2} \ln(|Σ_{i}|) - 2 \ln(P(C_{i})) $$ この ${g_{i}(x)}$ が最小となるクラスを選択すれば、誤り最小基準のベイズの識別規則が得られる。