【cs231n】深度画像をもとにCNNで姿勢推定する手法メモ

cs231nの授業レポートを読んだ。 http://cs231n.stanford.edu/reports/2016/pdfs/426_Report.pdf

  • Li 2014のモデルをほぼそのまま使っている

f:id:yusuke_ujitoko:20170717140512p:plain

  • 上記との違う点は
    • 入力が3チャンネルではなく、1チャンネルであること
    • conv2の後の正規化をしないこと
    • 出力は各関節位置

  • 誤差関数の設計
    • 出力の各関節位置のL2距離だけを誤差関数とすると,
      人間の階層的情報を活かしきれてない.
    • 本研究では以下の3つの和を使う
      3つの最適な重みを実験で調べている
      • {L_{d}}:四肢の位置のL2距離
      • {L_{s}}:四肢の長さのL2距離
      • {L_{r}}:関節角度のコサイン類似度