Michael NielsenのNeural Networks and Deep Learningを読んで、覚えておきたいと思ったこと

Michael Nielsen著のオンライン書籍Neural Networks and Deep Learningを読んで、
覚えておきたいと思ったことのメモ。

ゼロから作るディープラーニングのネタ元は、 CS231nとばかり思っていたけど、
今となっては、真のネタ元はこのオンライン書籍だと確信している。
言い回しとか、コード例とかが瓜二つ。

こちらの書籍、なんと有志がプロジェクトを作って日本語訳を勧めているそう。
ぜひ翻訳参加してみたい。

追記:5章、6章の訳を担当させていただけました！

ch.1 ニューラルネットワークを用いた手書き文字認識

パーセプトロンが2層になるとはどういうこと？

一層目のパーセプトロンは入力に重みをつけて、単純な判断をしている。二層目のパーセプトロンは第一層のパーセプトロンよりも複雑で、抽象的な判断を下しているといえそう。

バイアスの意味とは？

バイアスはパーセプトロンが1を出力する傾向の高さを表す量だとみなせる。あるいは、生物学の例えを使えば、バイアスとは、パーセプトロンというニューロンが発火する傾向の高さを表すといえる。

なぜ誤差関数を使うのか？

なぜ誤差関数を導出するのか？
結局のところ、われわれが知りたいのはどれだけの画像がネットワークによって正しく分類されたかではないのか？
分類が成功した回数を最大化せずに、誤差間薄を最小化するのはなぜ？

その理由は分類の正解数が、ネットワークの重みとバイアスのなめらかな関数にならないことにある。重みとバイアスに小さな変更を加えても、正解数が変化することがほとんどないため、コストを改善するのに重みとバイアスをどう変更したら良いかわからない。代わりに誤差関数のような滑らかな関数を用いた場合、重みとバイアスに対してどう微小に変更を加えれば改善できるかが簡単にわかるようになる。これが誤差関数の最小化を用いる理由であり、2次コストの最小化をした後で初めて分類の精度を調べることにする。

オンライン学習（逐次学習）とは？

オンライン学習とは、ニューラルネットワークの一回の学習を一つの訓練入力で行うこと。
人間とおなじ方法。

ch.2 逆伝播の仕組み

誤差逆伝播法を構成する美しい4つの式

以下の4つの式を覚えておくと、ニューラルネットに施すテクニックの理由や、その影響を説明できるようになる。

出力層での誤差 ${\delta^{L}}$ に関する式

${ \delta_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} \sigma'( z_{j}^{L} ) }$

誤差 ${\delta^{l}}$ での誤差 ${\delta^{l+1}}$ に関する式
(直観的には誤差をネットワークとは逆方向に伝播させている)

${ \delta^{l} = ((w^{l+1})^{T} \delta^{l+1}) \odot \sigma'(z^{l}) }$

任意のバイアスに関するコストの変化率の式

${ \frac{\partial C}{\partial b_{j}^{l}} = \delta_{j}^{l} }$

任意の重みについてのコストの変化率の式

${ \frac{\partial C}{\partial w_{jk}^{l}} = a_{k}^{l-1} \delta_{j}^{l} }$

ch.3 ニューラルネットワークの学習の改善

どうやったら交差エントロピーを最初に思いつくのか？

二乗和誤差の勾配計算の際に、 ${\sigma'(z)}$ の項が、学習の速度低下を引き起こしていた（ ${\sigma}$ があると、勾配消失しやすいため）。 ${\sigma'(z)}$ の項が初めからないような、勾配の式から出発し積分することで交差エントロピー誤差の式を導出した。

交差エントロピーは何を意味するのか？

驚きの尺度。出力が期待通りだとあまり驚かないし、期待していないものだと強く驚く。

正規化項はなぜバイアスを含まないのか？

${ C = - \frac{1}{n} \sum_{xj} y_{j}\ln aj^{1}+ (1-y_{j}) \ln (1 - a_{j}^{L}) + \frac{\lambda}{2 n} \sum_{w} w^{2} }$

この正規化項にバイアスを含まない。その理由は、もし、バイアスが大きくなっても、重みが大きくなったときのように、入力に対するニューロンの感受性が高まるわけではないから。だから、大きなバイアスのために、訓練データのノイズを学習してしまうのではないかと心配する必要はない。同時に、大きなバイアスを許すことで、ニューラルネットワークはより柔軟に振る舞えるようになる。特に大きなバイアスを許すことで、ニューロンの出力が容易に飽和できるようになる。時に、この性質が望ましい場合がある。

重みが小さいことの意味

ニューラルネットワークの大部分で小さな重みをもつとする。重みが小さいということは、ランダムな入力を変化させてもニューラルネットワークの振る舞いが大きくは変わらないことを意味する。そのため、正規化されたニューラルネットワークでは、データに含まれる局所的なノイズの効果を学習しづらくなっている。その代わり、正規化されたニューラルネットワークは訓練データの中で繰り返し観られるデータの特徴に反応する。

対照的に、大きな重みを持つニューラルネットワークは、入力の小さな変化に敏感に反応してその振る舞いを大きく変えてしまう。そのため、正規化されていないニューラルネットワークは、大きな重みを使って、訓練データのノイズに関する情報を沢山含んだ複雑なモデルを学習してしまう。

要するに、正規化されたニューラルネットワークは訓練データに頻繁に現れるパターンに基づいた比較的シンプルなモデルを構築する。そして、訓練データが持つノイズの特異性を学ぶことに対して耐性をもつ。