10/2017 読んだもの

f:id:akmtn:20171002133323p:plain

f:id:akmtn:20171003091922p:plain

'in-the-wild'な画像を使って，shape, illumination, albedoのようなレンダリング要素をもつれを解いた潜在変数空間にエンコードするunsupervised autoencoder．
EB-GAN lossと，autoencoderなのでL2 lossを使う．L2は生成画像と正解画像の比較だが，'in-the-wild'な画像には変形後の正解がないので，3D Morphable Modelを使って，擬似的に正解画像を作る．
結局 3D Morphable ModelをDNNで近似しているように思えるが，もつれを解いた潜在変数空間を作ることができているところにインパクトがある．
多すぎるほどのLossを使うところが面白い．
影のかかり方を変えたりすることも結構できるのが驚き．

f:id:akmtn:20171003105632p:plain

ラベル付き広告データセットの作成と公開．
広告をComputer Visionで理解するための課題が挙げられていたが，明らかに難問．’森が焼けている’ではなくて’肺が焼けている’を理解し，そこから’禁煙を訴えている’ことを導かなければならない，など．

f:id:akmtn:20171006163118p:plain

ImageNetをGANで学習，生成するとぐちゃぐちゃな画像が出ていたが，classラベルをつけて学習させると，global coherenceな高解像画像を（ある程度）生成できた．
StyleTransferでも，GANロスだけでなくて，ラベル情報を使った分類ロスを併用する手法が出ている．

f:id:akmtn:20171008160749p:plain

f:id:akmtn:20171008183336p:plain

Gatysらの手法は，画像自体をPerceptual Lossで繰り返し最適化していくが，この手法では，Image Transformation Network(feed-forward)をPerceptual Lossで最適化する．
それによって，feed-forwardで高速に変換でき，かつ，Perceptual Lossによるハイクオリティーな変換ができる．
平易に書かれた論文で，勉強になった．

f:id:akmtn:20171011205503p:plain

feed-forwardかつ，fine-tuningを必要とせず任意の(universal)スタイルに対応するStyle Transfer．StyleBankに似ており，auto-encoderでスタイルを特徴空間にembeddingする．
その特徴空間において，(スタイルを変換したい)コンテンツの特徴をスタイルの特徴に一致させれば，再構成した時にそのスタイルを持つコンテンツが生成できる．特徴空間での特徴量の変換にwhiteningとcoloringを利用する．
Perceptual lossを元に特徴量を近づけるのではなく，強制的に特徴量を一致させるという方法が面白いところ．

f:id:akmtn:20171012151159p:plain

photo-realisticなstyle transferを実現．絵画などのスタイルをtransferする研究が多い中で，新しい枠組み．しかし，著者らもphoto-realisticとは何か？という問いに対する答えを見つけているわけではない．
もともとphoto-realisticなコンテンツ画像のエッヂを保存し，color spaceのみを変化させることで，photo-realisticさを保ったstyle transferを行なっている．
用いている手法はfeed-forwardではなく，optimization-basedの手法である．損失関数の工夫によってエッヂの保存を実現しているが，feed-forwardでエッジの保存を行うのであれば，同じ損失関数はあまり有効ではないのかもしれない．