Voxel heatmapで三次元姿勢推定

Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose
https://arxiv.org/abs/1611.07828

3次元関節推定問題に対して、

volumetric heatmapを回帰させる
反復的なネットワークで段階的に精度を上げる

f:id:yusuke_ujitoko:20170806013741p:plain:w500

手法

Volumetric representation

volumetric representationを使う。三次元空間を ${w \times h \times d}$ のvoxelに分割し、関節が各voxelに存在する確率を推定させる。教師データは三次元正規分布で作り、教師データとのL2距離を誤差関数とする。

volumetric representationの利点は、各関節の座標を直接回帰させる問題を、voxel ごと関節が存在する信頼度の推定問題とできること。こちらの方がネットワークとしては勾配情報を伝搬しやすく学習しやすい。二次元姿勢推定でも全く同じ話があった。

ネットワークの構造としては、hourglass型を使う。

f:id:yusuke_ujitoko:20170806013802p:plain

Coarse-to-fine prediction

多段のstageを利用して反復的に精度を上げていく。二次元姿勢推定で有効性が確認されている手法だが、三次元の場合、例えば ${64 \times 64 \times 64}$ のvoxelを16個の関節分推定する必要があるとすると、400万voxel分推定することになる。次元の呪いを避けるため、coarse-to-fine predictionの枠組みを使う。最初の方のstageではvoxelのz次元(距離方向)に対する解像度を低くし、後ろの方のstageでは解像度を徐々に上げていく。