教師なし学習で生成画像を制御できそうなinfoGANを試す

InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets https://arxiv.org/abs/1606.03657 教師なし学習で生成画像を制御できそうなinfoGANを試してみる。 生成してみた画像がこちら 背景 GANの学習ではG(…

GANによる医療画像の異常検知

Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery https://arxiv.org/abs/1703.05921 まず下準備として,正常な画像を訓練データとして使い,GANを学習させる. 学習後のGANの はlatent space representatio…

シミュレータで生成した画像に現実感を付与する(SimGAN)

Learning from Simulated and Unsupervised Images through Adversarial Training https://arxiv.org/abs/1612.07828 概要 学習のための画像がない場合や不足している場合,シミュレータ等を使い人工的に画像を生成することがある. しかしシミュレータで生…

Voxel heatmapで三次元姿勢推定

Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose https://arxiv.org/abs/1611.07828 3次元関節推定問題に対して、 volumetric heatmapを回帰させる 反復的なネットワークで段階的に精度を上げる 関連研究 CNNによる三次元姿勢推定でよ…

人体構造の制約を GANでimplicitに教示して姿勢推定するメモ

Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation https://arxiv.org/abs/1705.00389 関連研究 姿勢推定ではDCNN(Deep Convolutional Neural Nets)でheatmapを回帰する手法が一般的 しかし、以下の場合では現実では…

OpenPose論文メモ

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields arXiv:https://arxiv.org/abs/1611.08050 概要 CNNの組合せで画像内の人物姿勢を検知を達成 NP-hard問題をrelaxationを設けて解く top-downアプローチ(人を検知→検知した人それぞれの…

Stacked Hourglassによる姿勢推定メモ

Stacked Hourglass Networks for Human Pose Estimation https://arxiv.org/abs/1603.06937 概要 stacked hourglassな形状のネットワークを使って姿勢推定する 画像の全ての大きさの情報を捉えて利用できる hourglassを連結、hourglassごとに教師データを与…

Convolutional Pose Machinesメモ

Convolutional Pose Machines https://arxiv.org/abs/1602.00134 姿勢認識の研究の流れを追うため、とりあえずガンガン読んでいく。 あとで綺麗にまとめたい。 関連研究 pictorial structures 部位間の空間的関係を木構造のグラフィカルモデルで記述 四肢が…

Multi-Resolution Heatmap Regressorによる姿勢推定メモ

Efficient Object Localization Using Convolutional Networks https://arxiv.org/abs/1411.4280 関連研究 DeepPose (DeepPose論文メモ - 緑茶思考ブログ) Toshev et. al,は"FLIC"や"LSP"のデータセットでSOTA 関節位置を回帰問題として直接解く RGB画像から…

DeepPose論文メモ

DeepPose: Human Pose Estimation via Deep Neural Networks http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Toshev_DeepPose_Human_Pose_2014_CVPR_paper.pdf 関連研究 人体をlocalなパーツが連結したものと見る手法 Figure Drawing Pi…

【cs231n】深度画像をもとにCNNで姿勢推定する手法メモ

cs231nの授業レポートを読んだ。 http://cs231n.stanford.edu/reports/2016/pdfs/426_Report.pdf Li 2014のモデルをほぼそのまま使っている 上記との違う点は 入力が3チャンネルではなく、1チャンネルであること conv2の後の正規化をしないこと 出力は各関節…

深層学習の認識タスクにおいて、データ量を増やすと精度がどの程度向上するか

Revisiting Unreasonable Effectiveness of Data in Deep Learning Era https://arxiv.org/abs/1707.02968 データを増やすとどうなるか (a)モデルサイズや(b)計算力は向上しているが、(c)データセットサイズの変化は小さい。 データセットが大きくなれば、…

DRAGANでいらすとや画像を生成してみる

DRAGAN arXiv:https://arxiv.org/abs/1705.07215 “How to train your DRAGAN"というタイトルの論文で、 変なタイトルだなぁ..と思っていたが、 このタイトルの元ネタとして、アメリカの3DCGアニメがあるのを知った。 (日本名はヒックとドラゴンというらしい…

誕生日のパラドックスを応用してGANによる生成データの分布の多様性を評価する

Do GANs actually learn the distribution? An empirical study https://arxiv.org/abs/1706.08224 GANによって生成されたデータの分布の多様性を評価する論文。 この論文では誕生日のパラドックスを使った少しトリッキーな分析をしている。 実際のGANの生成…

Conditional GANをMNISTとCIFAR-10で試してみる

Conditional Generative Adversarial Nets https://arxiv.org/abs/1411.1784 cGANは条件付き確率分布を学習するGAN。 スタンダードなGANでは,指定の画像を生成させるといったことが難しい. 例えば0,1,…9の数字を生成させるよう学習させたGANに対しては, …

cGANによるマンガの色付け論文メモ

cGAN-based Manga Colorization Using a Single Training Image arXiv:https://arxiv.org/abs/1706.06918 概要 学習データとしてマンガを集めるのが難しい 普通マンガは白黒しかない copyrightの問題 自動色つけ手法としてpix2pixがあるが,大量の訓練データ…

maxoutに関するメモ

DeepLearningBookで読んだmaxoutについてのメモ. MaxoutはReLUを一般化したもの. Maxoutユニットは個の値からなるユニットの集合である. 他の活性化関数と違ってmaxoutでは,前層ユニットからmaxout内の各ユニットへの線形変換のパラメータを学習する. …

pix2pixで白黒動画に色をつけてみる

Image-to-Image Translation with Conditional Adversarial Networks arXiv:https://arxiv.org/abs/1611.07004 project:https://phillipi.github.io/pix2pix/ 白黒動画のcolorizationをpix2pixを使って行ってみたというのが本記事の主旨 pix2pixの概要 画像…

BatchNormalizationの初出論文メモ

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift arXiv:https://arxiv.org/abs/1502.03167 Internal Covariance Shiftの問題 ニューラルネットワークでは,入力となるデータの分布が白色化されていると学習…

ResNetは様々な長さのパスをもつネットワークのアンサンブルとみなせる

Residual Networks Behave Like Ensembles of Relatively Shallow Networks arXiv:https://arxiv.org/abs/1605.06431 ResNetの初出の論文を読んだが、 なぜ深層の学習がうまく行ったのか不明瞭だった。 本論文ではその「なぜ?」の部分に対する解釈を与えて…

ResNet論文を読んだメモ(arXiv:1512.03385)

今更ながらResNet論文を読んだメモ Deep Residual Learning for Image Recognition arXiv:https://arxiv.org/abs/1512.03385 概要 深いネットワーク 勾配消失や勾配爆発によって収束しない問題は、初期値の正規化や中間層の正規化によって解決しつつある 一…

closed formのメモ

closed formとは,有限個の"よく知られた"演算の組み合わせによる解の表し方のこと. “よく知られた"の部分は主観や文脈に左右されるが,例えば以下の演算など. 定数 変数 加減乗除 関数(exp, log, 三角関数) ただしlimitは使えない 解がclosed formで表せ…

Cramér GANでいらすとや画像生成してみる

Cramér GAN arXiv:https://arxiv.org/abs/1705.10743v1 このGANは数日前(5/30)に投稿されたもの。 これまでGANのベースラインとして, vanilla GAN,DCGAN,WGAN,WGAN-gpなどが使われてきた. この中のWGANやWGAN-gpより優れているという主張が論文内でされ…

リグレット解析のメモ

MLP オンライン機械学習本でリグレット解析について勉強した際のメモ. リグレット解析の概要 リグレット解析(regret analysis)はアルゴリズムが最適な戦略をとった場合と比べてどの程度悪かったのか, そのリグレット(後悔)を測ることでアルゴリズムの性…

Rで被験者内・被験者間の分散分析をする

ここを見る http://www.cookbook-r.com/Statistical_analysis/ANOVA/

Boundary Equilibrium GAN(BEGAN)でいらすとや画像を生成してみる

Boudary Equilibrium GAN,略してBEGANと呼ばれる Arxiv: https://arxiv.org/abs/1703.10717 このBEGANを使って以下のようないらすとや画像を生成するというのが本記事の主旨。 完全にmode collapseしてしまった。 結構いろいろ試しているものの、パラメータ…

"How to Train a GAN" at NIPS2016 workshopのメモ

NIPS2016でのWorkshop on Adversarial Training「How to train a GAN」での, GANを学習させるTipsのまとめ。 Workshopの動画 (30分程度で軽めなので観てみると良いと思います) www.youtube.com 以下は登壇者による↓のメモ https://github.com/soumith/gan…

Tutorial on Variational Autoencodersを読む

Variational Autoencoders,略してVAEsと呼ばれる Arxiv: https://arxiv.org/abs/1606.05908 Tutorial on Variational Autoencoders(VAEs)を読み解いていこうと思う。 先人たちによる日本語の詳細な解説はネット上にゴロゴロあるので、 本記事は自分自身の理…

変分法メモ

汎関数 関数 は任意の入力に対して出力を返す演算子と考えられる。 同様に、関数を入力としてとり、ある出力値を返す演算子として汎関数が定義できる。 例えば、2次元平面中の曲線がある関数で定義されているときに、その長さを求める演算子は汎関数となる。…

Wasserstein GAN(WGAN)でいらすとや画像を生成してみる

Wasserstein GAN,略してWGANと呼ばれる Arxiv: https://arxiv.org/abs/1611.02163 著者によるコード: https://github.com/martinarjovsky/WassersteinGAN このWGANを使って以下のようないらすとや画像を生成したというのが本記事の主旨。 本論文のcontribut…