10/2017 読んだもの
38. Fast-AT: Fast Automatic Thumbnail Generation using Deep Neural Networks , CVPR2017
- 1枚の画像から,アスペクト比を指定してサムネイルを生成.アスペクト比ごとに畳み込み層のカーネルを使い分ける.
- 物体検出のフレームワークが元.saliencyは利用しない.
- 高速でサムネを生成することは,画像検索結果の表示や広告配信でもキーになるので今後も発展すると思う.
39. Neural Face Editing with Intrinsic Image Disentangling , CVPR2017
- 'in-the-wild'な画像を使って,shape, illumination, albedoのようなレンダリング要素をもつれを解いた潜在変数空間にエンコードするunsupervised autoencoder.
- EB-GAN lossと,autoencoderなのでL2 lossを使う.L2は生成画像と正解画像の比較だが,'in-the-wild'な画像には変形後の正解がないので,3D Morphable Modelを使って,擬似的に正解画像を作る.
- 結局 3D Morphable ModelをDNNで近似しているように思えるが,もつれを解いた潜在変数空間を作ることができているところにインパクトがある.
- 多すぎるほどのLossを使うところが面白い.
- 影のかかり方を変えたりすることも結構できるのが驚き.
40. Automatic Understanding of Image and Video Advertisements , CVPR2017
- ラベル付き広告データセットの作成と公開.
- 広告をComputer Visionで理解するための課題が挙げられていたが,明らかに難問.’森が焼けている’ではなくて’肺が焼けている’を理解し,そこから’禁煙を訴えている’ことを導かなければならない,など.
41. Conditional Image Synthesis with Auxiliary Classifier GANs , 2016
- ImageNetをGANで学習,生成するとぐちゃぐちゃな画像が出ていたが,classラベルをつけて学習させると,global coherenceな高解像画像を(ある程度)生成できた.
- StyleTransferでも,GANロスだけでなくて,ラベル情報を使った分類ロスを併用する手法が出ている.
42. Real-Time User-Guided Image Colorization with Learned Deep Priors , 2017
- Iizuka+(Let There be Color!)の手法を,ユーザによる局所的な色のヒントから複数の着色パターンを出力するように発展させている.
- 大域的な統計量を中間特徴量に組み込む構造であることから,カラーヒストグラムを指定することででも,全体の色味を指定することができるのが面白い.
43. Perceptual Losses for Real-Time Style Transfer and Super-Resolution , 2016
- Gatysらの手法は,画像自体をPerceptual Lossで繰り返し最適化していくが,この手法では,Image Transformation Network(feed-forward)をPerceptual Lossで最適化する.
- それによって,feed-forwardで高速に変換でき,かつ,Perceptual Lossによるハイクオリティーな変換ができる.
- 平易に書かれた論文で,勉強になった.
44. Universal Style Transfer via Feature Transforms , NIPS2017
- feed-forwardかつ,fine-tuningを必要とせず任意の(universal)スタイルに対応するStyle Transfer.StyleBankに似ており,auto-encoderでスタイルを特徴空間にembeddingする.
- その特徴空間において,(スタイルを変換したい)コンテンツの特徴をスタイルの特徴に一致させれば,再構成した時にそのスタイルを持つコンテンツが生成できる.特徴空間での特徴量の変換にwhiteningとcoloringを利用する.
- Perceptual lossを元に特徴量を近づけるのではなく,強制的に特徴量を一致させるという方法が面白いところ.
45. Deep Photo Style Transfer , CVPR2017
- photo-realisticなstyle transferを実現.絵画などのスタイルをtransferする研究が多い中で,新しい枠組み.しかし,著者らもphoto-realisticとは何か?という問いに対する答えを見つけているわけではない.
- もともとphoto-realisticなコンテンツ画像のエッヂを保存し,color spaceのみを変化させることで,photo-realisticさを保ったstyle transferを行なっている.
- 用いている手法はfeed-forwardではなく,optimization-basedの手法である.損失関数の工夫によってエッヂの保存を実現しているが,feed-forwardでエッジの保存を行うのであれば,同じ損失関数はあまり有効ではないのかもしれない.