- Efficient Object Localization Using Convolutional Networks
- https://arxiv.org/abs/1411.4280
関連研究
- DeepPose (DeepPose論文メモ - 緑茶思考ブログ)
Multi-Resolution Heatmap Regressor
Coarse Heat-Map Regression Model
- 異なる解像度の入力画像をConvNetに入力する,
https://arxiv.org/abs/1406.2984のモデルの拡張- 関節ごとに関節位置の尤もらしさをピクセルごとのヒートマップで出力
さらに工夫を加えた点として
- Spatial Dropout
- Loss
- 真のヒートマップと予測したヒートマップのMSEとする
- 真ヒートマップは関節位置(x,y)を中心とする2D Gaussian
Fine Heat-Map Regression Model
- ネットワークを直列でつなぐときに各stageのパラメータを別とするDeepPoseと異なり,本研究ではパラメータを再利用する.
- パラメータ数の軽減
- coarseとfineモデルを両方学習することでregularizationとなる
- 関節の推定
- coarse heat-map modelにおいて,関節位置(x,y)を推定し,
その関節位置まわりを最初の2つの畳み込み層でcropする - fine heat-map modelにおいて,微小位置変位(Δx, Δy)を推定し,
coarse modelで推定した関節位置(x,y)に加える
- coarse heat-map modelにおいて,関節位置(x,y)を推定し,
- このcascaded architectureはいくつも繋げても良いが,1つだけでも十分な精度が出た.
問題
- 人体の関節の階層構造を利用していない
- coarseモデルの時点でcropされた部分に真の関節が含まれてしまう問題(DeepPoseと同じ問題)