DeepLearningBookで読んだmaxoutについてのメモ.
MaxoutはReLUを一般化したもの.
Maxoutユニットは個の値からなるユニットの集合である.
他の活性化関数と違ってmaxoutでは,前層ユニットからmaxout内の各ユニットへの線形変換のパラメータを学習する.
また集合内で最大の値を選んでmaxoutユニットの出力とする. $$ g(z)_{i} = \max_{j \in \mathbb{G}^{(i)}} z_{j} $$
この性質によりmaxout unitはconvex functionとなる.
Maxoutでは集合内のk個のユニットのうち,k-1個は出力されないため冗長性があり, NNが過去に訓練したタスクを忘れてしまう catastrophic forgetting が起きにくい.