Globally and Locally Consistent Image Completionを試す
SIGGRAPH 2017で発表された「Globally and Locally Consistent Image Completion」を簡略し実験した記録です.(ディープネットワークによるシーンの大域的かつ局所的な整合性を考慮した画像補完)
論文へのリンク:
http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/data/completion_sig2017.pdf
プロジェクトページへのリンク:
飯塚里志 — ディープネットワークによる画像補完(SIGGRAPH 2017)
感動.すごい.
気になるアイデア
Dilated Convolution を使うことで
・受容野を広げ,画像中の広範囲の情報を利用,
・ダウンサイズをできるだけ避けて,解像度をキープ.
また,2つの識別器(Discriminator)の利用し,
・画像全体がリアルか
・補完付近がリアルか
をみることで,より補完が上手くいく.
早く自分でも試して見たいと思い,ソースコードの公開を待ち望むも中々その日は来ず.
簡単にでも自分でコードを書くことに.
論文と同じPlace2を利用しましたが,その一部のジャンルに絞ることや,後処理を施していないなど,結構論文とは異なる状況で実験しています.
結果
学習途中の画像を載せました.
補完領域は,あるサイズの矩形です.画像の4分の1くらいを占めています.
補完領域の形を複雑にすると,補完している場所がよりばれにくくなりそうです.
Completion NetworkのMSEによるPretrainingが終わった段階では,下のようにぼやけた感じでした.
このあとGANによる手続きで,より自然な画像を生成するように更新していきます.
論文中でも, heavily structured objectsの補完は困難であると書いてあるように
人や飛行機などを復元するなどは難しいようですね.
→得意なジャンル,不得意なジャンルがある.
いくつか試して,Adversarial Loss + L2 Loss を組み合わせるのが効果的という実感も.
Adversarial Loss だけで飛行機画像の生成を行うとグチャグチャに.
そもそも飛行機画像の生成自体難しいとは思いますが.
ハイパーパラメータの調整もしていないですし,論文のように2ヶ月間学習していませんので,全然再現できていないので,
論文筆者によるソースコードが待ち遠しいです.