Convolutional Pose Machinesメモ - 緑茶思考ブログ

Convolutional Pose Machines
https://arxiv.org/abs/1602.00134

姿勢認識の研究の流れを追うため、とりあえずガンガン読んでいく。
あとで綺麗にまとめたい。

Pose Machines

f:id:yusuke_ujitoko:20170721001108p:plain

Pose Machinesは幾つかStageを経て部位の特定精度を高めていく。
Stage1とそれ以降のStageで少しだけ処理が異なる。
このPose Machinesに関しては以前の論文の方を見たほうが良さそう。

Stage1

Stage1では、入力画像 ${x_{z}}$ をもとに「各部位 ${p}$ がどの位置にあるかの度合い」を示すconfidence map ${b_{1}^{p}}$ を出力する。 ${}$ $$ g_{1}(x_{z}) \rightarrow {b_{1}^{p}(Y_{p} = z)}_{p \in {0 \cdots P}} $$ 各パーツ、各座標ごとに ${b_{t}^{p}}$ の値が一意に定まるイメージ。
このStage1で、画像中の局所的な特徴から部位を推定する。ただしStage1だけの結果では弱いのでStage2以降で部位ごとのconfidence mapを統合してconfidence mapの精度を高めていく。

Stage2以降

Stage2以降では、

局所的な画像特徴量 ${\boldsymbol{x}_{z}^{\prime}}$
confidence map ${\boldsymbol{b}_{t-1}}$

をもとに、confidence map ${\boldsymbol{b}_{t}}$ を出力する。 ${}$ $$ g_{t}(\boldsymbol{x}^{\prime}_{z}, \psi_{t}(z, \boldsymbol{b}_{t-1})) \rightarrow {b_{t}^{p}(Y_{p} = z)}_{p \in {0 \cdots P+1}} $$

その際、前のStageで出力されたconfidence map ${\boldsymbol{b_{t-1}}}$ から、中間生成物としてcontext featuresを作る。 ${\psi_{t}(z, \boldsymbol{b}_{t-1})}$ が ${\boldsymbol{b_{t-1}}}$ からcontext featuresへの写像。この ${\psi_{t}}$ の役割は、confidence mapにおける異なる部位の同じ座標 ${z}$ の情報をエンコードすること。