【cs231n】深度画像をもとにCNNで姿勢推定する手法メモ

cs231nの授業レポートを読んだ。 http://cs231n.stanford.edu/reports/2016/pdfs/426_Report.pdf

  • Li 2014のモデルをほぼそのまま使っている

f:id:yusuke_ujitoko:20170717140512p:plain

  • 上記との違う点は
    • 入力が3チャンネルではなく、1チャンネルであること
    • conv2の後の正規化をしないこと
    • 出力は各関節位置

  • 誤差関数は以下の3つの和
    3つの最適な重みを実験で調べている
    • {L_{d}}:四肢の位置のL2距離
    • {L_{s}}:四肢の長さのL2距離
    • {L_{r}}:関節角度のコサイン類似度