Globally and Locally Consistent Image Completionを試す

SIGGRAPH 2017で発表された「Globally and Locally Consistent Image Completion」を簡略し実験した記録です．(ディープネットワークによるシーンの大域的かつ局所的な整合性を考慮した画像補完）

論文へのリンク：

プロジェクトページへのリンク：

感動．すごい．

気になるアイデア

Dilated Convolution を使うことで

・受容野を広げ，画像中の広範囲の情報を利用，

・ダウンサイズをできるだけ避けて，解像度をキープ．

また，２つの識別器（Discriminator）の利用し，

・画像全体がリアルか

・補完付近がリアルか

をみることで，より補完が上手くいく．

早く自分でも試して見たいと思い，ソースコードの公開を待ち望むも中々その日は来ず．

簡単にでも自分でコードを書くことに．

論文と同じPlace2を利用しましたが，その一部のジャンルに絞ることや，後処理を施していないなど，結構論文とは異なる状況で実験しています．

結果

f:id:akmtn:20170908173808p:plain

学習途中の画像を載せました．

補完領域は，あるサイズの矩形です．画像の４分の１くらいを占めています．

補完領域の形を複雑にすると，補完している場所がよりばれにくくなりそうです．

Completion NetworkのMSEによるPretrainingが終わった段階では，下のようにぼやけた感じでした．

f:id:akmtn:20170908181727p:plain

このあとGANによる手続きで，より自然な画像を生成するように更新していきます．

論文中でも， heavily structured objectsの補完は困難であると書いてあるように

人や飛行機などを復元するなどは難しいようですね．

f:id:akmtn:20170908180014p:plain

→得意なジャンル，不得意なジャンルがある．

いくつか試して，Adversarial Loss + L2 Loss を組み合わせるのが効果的という実感も．

Adversarial Loss だけで飛行機画像の生成を行うとグチャグチャに．

f:id:akmtn:20170908180130p:plain 　 f:id:akmtn:20170908180433p:plain

そもそも飛行機画像の生成自体難しいとは思いますが．

ハイパーパラメータの調整もしていないですし，論文のように２ヶ月間学習していませんので，全然再現できていないので，

論文筆者によるソースコードが待ち遠しいです．