9/2017 読んだもの
28. Learning from Simulated and Unsupervised Image through Adversarial Training
- シミュレータで画像を生成した時についてくるアノテーション情報と,refineした画像が食い違わないようにする工夫が面白い.
- 現実的な画像に近づけられたかをどう定量的に評価するか?→実際にモデルの学習に利用して精度が出るか確認・・・なるほど
29. Visual Worlds as Proxy for Multi-Object Tracking Analysis , 2016
- virtual KITTIの公開
- CGを用いてDNNを訓練しても精度が出ないと言われている中で,作成したCGのデータセットでMOTのパフォーマンスが向上したという報告が気になる.
- real to virtual worldでもモデルの学習で精度が出たので,CGをより現実に近づけれたかどうかの判断で,モデルの学習の精度を見るのは不十分か?
30. Creativity: Generating Diverse Questions using Variational Autoencoders , CVPR2017
- 'diverse question'の重要性について力説していたのが印象的.
- コンピュータの「創造性」は,例えば未来予測やこの研究のように1枚の画像から複数の質問を挙げることとしていたのが興味深い.
31. Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary Classifier GAN, 2017
- PaintsChainerでは色のヒントを手動でつけるが,この論文は参考イラストでの色の選び方を自動で真似して着色してくれる.
- U-netの勾配消失を防ぐためにGuide Decoderを2つも追加する工夫が面白い.
32. StyleBank: An Explicit Representation for Neural Image Style Transfer, 2017
- StyleBankという,auto-encoderによってスタイルをfeature embeddingにしたものを利用する.従来のneural style transferでは,新たなスタイルで変換できるようにするために,再度,ネットワークを訓練する必要があった.提案手法では,CDを取り替えると別の音楽を聞けるように,StelyBankを取り替えるだけで,別のスタイルで変換を行えるようになるという.面白い.
33. Texture Networks: Feed-forward Synthesis of Texture and Stylized Images, 2016
- texture synthesis でも style transfer でも生成結果を見ると,Gatysらの結果に劣っているように感じるが,feed-forwardで生成できるという点が当時では大進歩だった.
34. Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification, SIGGRAPH2016
- シーン分類のクロスエントロピー損失を用いて,適切に大域的な特徴量が取れるようにネットを訓練し,シーンにあった着色を行えるようにした工夫がある.シーン分類のラベル付けをより細かくしたらどうなるのか.
35. Fast Image Processing with Fully-Convolutional Networks, 2017
- dilated conv. とMSEの単純なネットワーク構造で複数の画像処理の効果を近似することができるというのが面白い.
- 高速に処理を施せるので,今後フレーム間で整合性を保てれば,リアルタイムで映像の処理が行え,ライブ配信などでの表現の幅が広がりそう.
36. A Learned Representation for Artisitc Style, 2017
- 32.StyleBankと同じ問題設定.一つのstyle transfer ネットワークが一つのstyleにしか変換できないという問題.スマホアプリなどに搭載するには,メモリの観点から,一つのネットワークで複数種類のスタイル変換が行えるべきである.
- この論文の約2ヶ月後に32.StyleBankが発表されている.違いとしてはStyleBankはコンテンツとスタイルを明示的に分けようとしている点.変換の質はStyleBankの方が良さそう.
- スタイルを二つのベクトルで表現できるように落とし込めているのがすごい.スタイル変換だけでなく,そのほかの画像処理などもこのように,異なるパラメータと,共通のパラメータの畳み込み層で表現して使い分けることができるようにならないだろうか.
37. Semantic Image Inpainting with Deep Generative Models , CVPR2017
- CVPR2017の画像補完
- 構造としては,DCGAN.生成される画像と元画像の穴のない領域との間での重み付きL1Lossを使って,その2つがもっとも近いzを探すことを繰り返す.
- SIGGRAPH2017のIizuka+の手法の方がSOTAだと思うが,手法の方向性は異なる.