いろんなGAN - unachan

GANについて整理してみる。

参考資料がすごくわかりやすい。

　参考資料

Conditional GANは、学習時にラベルを与えることで、種類を指定したデータの生成を可能にする。通常のGANは、ランダムなサンプリングを行っている。このため生成されるデータの種類を指定するのが困難である。

正解ラベル(カテゴリ)を指定して画像生成を行うことが可能である。 f:id:unachan_kz:20200718153347p:plain

例えば、0, 9という正解ラベルを指定することで画像を生成し、並べて表示することができる。

インターネット検索してみると、Condition GANの発展から、動物、食品などの種類を指定した上で、学習済みのモデルを生成するなどの事例がヒットする。

pix2pixは言語翻訳の様に、画像のある特徴を別の特徴へ変換する。 Generatorはある画像を入力とし、出力は特徴が変換された画像となる。

pix2pixでは、ペアの画像から画像間の関係を学習する。そして学習済みのモデルは、学習済みのモデルは、学習済みの２つの画像間の関係を考慮して、画像から画像への翻訳を行う。

f:id:unachan_kz:20200718154514p:plain

論文にあるように、領域がラベル付けされた画像から風景への変換になる。言語翻訳のように、入力文章に文脈に合致する次文章は何かを予測するタスクに似ている。

デメリットとしては、輪郭が一致した画像のペアを大量に用意するのが大変。

土木などの分野で予測するために使用されていたりする。

Cycle GANは、pix2pixのように画像のペアを使うのではなく、画像群のペアを使って学習する。 pix2pixとは異なり、対応する画像同士がペアになってなくてもいいのがcycle GANの大きなメリット

f:id:unachan_kz:20200718155348p:plain

Cycle GANは、画像群Aの画像を画像群Bの画像に変換して学習すると共に、変換した画像群Bをもう一度画像群Aの画像に変換して学習する。このようにサイクルを繰り返すことで、写真をモネ風の画像に変換したり、夏の景色を冬の景色に変換することも可能になる。