Google GAN之父 ICCV2017演講：解讀生成對抗網(wǎng)絡(luò)的原理與應(yīng)用

plokmju88 發(fā)布于2019-04-25 18:20 / 3265人閱讀

摘要：但年在機器學(xué)習(xí)的較高級大會上，蘋果團隊的負責人宣布，公司已經(jīng)允許自己的研發(fā)人員對外公布論文成果。蘋果第一篇論文一經(jīng)投放，便在年月日，斬獲較佳論文。這項技術(shù)由的和開發(fā)，使用了生成對抗網(wǎng)絡(luò)的機器學(xué)習(xí)方法。

GANs

「對抗生成網(wǎng)絡(luò)之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演講是聊他的代表作生成對抗網(wǎng)絡(luò)（GAN/Generative Adversarial Networks），這幾年，他每到大會就會講 GAN，畢竟對抗生成網(wǎng)絡(luò)之父的頭銜在呢，這塊也是這幾年機器學(xué)習(xí)、計算機視覺等方向的研究熱點之一。

Ian Goodfellow 是世界上最重要的 AI 研究者之一，他在 OpenAI（谷歌大腦的競爭對手，由 Elon Must 和 Sam Altman 創(chuàng)立）工作過不長的一段時間，今年3月重返 Google Brain，加入Google Brain，其正在建立了一個探索“生成模型”（generative models）的新研究團隊。

生成模型的概念大家應(yīng)該都很熟悉，大概有兩種玩法：

密度（概率）估計：就是說在不了解事件概率分布的情況下，先假設(shè)隨機分布，然后通過數(shù)據(jù)觀測來確定真正的概率密度是怎樣的。

樣本生成：這個就更好理解了，就是手上有一把訓(xùn)練樣本數(shù)據(jù)，通過訓(xùn)練后的模型來生成類似的「樣本」。

在生成模型這一過程中，首先需要提到概率領(lǐng)域一個方法：較大似然估計，

現(xiàn)實生活中，我們可能并不知道每個 P（概率分布模型）到底是什么，我們已知的是我們可以觀測到的源數(shù)據(jù)。所以，較大似然估計就是這種給定了觀察數(shù)據(jù)以評估模型參數(shù)（也就是估計出分布模型應(yīng)該是怎樣的）的方法。

我們在理解生成對抗模型（GAN），首先要知道生成對抗模型拆開來是兩個東西：一個是判別模型，一個是生成模型。就需要提及Ian Goodfellow在2014發(fā)表的文章。文章標題：Generative Adversarial Networks。文章鏈接：https://arxiv.org/abs/1406.2661。

具體如下：

簡單打個比方就是：兩個人比賽，看是 A 的矛厲害，還是 B 的盾厲害。比如，我們有一些真實數(shù)據(jù)，同時也有一把亂七八糟的假數(shù)據(jù)。A 拼命地把隨手拿過來的假數(shù)據(jù)模仿成真實數(shù)據(jù)，并揉進真實數(shù)據(jù)里。B 則拼命地想把真實數(shù)據(jù)和假數(shù)據(jù)區(qū)分開。

這里，A 就是一個生成模型，類似于賣假貨的，一個勁兒地學(xué)習(xí)如何騙過 B。而 B 則是一個判別模型，類似于警察叔叔，一個勁兒地學(xué)習(xí)如何分辨出 A 的騙人技巧。

如此這般，隨著 B 的鑒別技巧的越來越牛，A 的騙人技巧也是越來越純熟。

一個造假一流的 A，就是我們想要的生成模型！

我們現(xiàn)在能使用GANs做什么，這幾年各種圍繞關(guān)于GANs的研究應(yīng)用很多很多。

學(xué)習(xí)訓(xùn)練數(shù)據(jù)的分布；

在更多的情況是，我們會面臨缺乏數(shù)據(jù)的情況，我們可以通過生成模型來補足。比如，用在半監(jiān)督學(xué)習(xí)中；

多標簽預(yù)測（同時完成real/fake, 樣本類別等的預(yù)測）；

根據(jù)環(huán)境需要生成相應(yīng)數(shù)據(jù)（比如，看到一個美女的背影，猜她正面是否會讓你失望……）

可以模擬預(yù)測未來數(shù)據(jù)（用于具有時序關(guān)系的圖像）

解決模型推斷問題

學(xué)習(xí)不錯的embedding（特征表示）信息

以保密為文化傳統(tǒng)的蘋果一貫不喜歡對外公布自己的研究成果。但2016年在機器學(xué)習(xí)的較高級大會NIPS上，蘋果AI團隊的負責人RussSalakhutdinov宣布，公司已經(jīng)允許自己的AI研發(fā)人員對外公布論文成果。這則消息剛剛宣布沒多久，蘋果就發(fā)表了自己的第一篇論文，題目叫做《通過對抗訓(xùn)練從模擬與無監(jiān)督圖像中學(xué)習(xí)》，論文描述了如何利用計算機生成的圖像而不是真實圖像改進算法識別圖像能力的訓(xùn)練。此舉一方面可以提高蘋果在AI界的存在感，同時如果其研究成果出色的話，也能在學(xué)術(shù)界贏得同行認可，并吸引到AI方面的人才。蘋果第一篇AI論文一經(jīng)投放，便在2017年7月22日，斬獲CVPR 2017較佳論文。

谷歌新論文使用生成對抗網(wǎng)絡(luò)的無監(jiān)督像素級域適應(yīng)，發(fā)表在CVPR 2017

Unsupervised Pixel-Level Domain Adaptation WithGenerative Adversarial Networks

對于許多任務(wù)而言，收集標注良好的數(shù)據(jù)集去訓(xùn)練現(xiàn)代的機器學(xué)習(xí)算法是極其昂貴

的。渲染合成數(shù)據(jù)倒是一個吸引人的選擇，本文的方法能以無監(jiān)督的方式學(xué)習(xí)一個像素空間中從一個域到另一個域的變換。基于生成對抗網(wǎng)絡(luò)（GAN）的方法能夠使源域（source-domain）圖像看起來就像是來自目標域（target domain）的一樣。這個模型不僅能生成看似可信的樣本，而且表現(xiàn)還極大超越了許多當前較佳的無監(jiān)督域適應(yīng)情況。

開始介紹面臨缺乏數(shù)據(jù)的情況，我們可以通過生成模型來補足。

內(nèi)容識別填充(: Content-aware fill ,是 photoshop 的一個功能)是一個強大的工具，設(shè)計師和攝影師可以用它來填充圖片中不想要的部分或者缺失的部分。在填充圖片的缺失或損壞的部分時，圖像補全和修復(fù)是兩種密切相關(guān)的技術(shù)。有很多方法可以實現(xiàn)內(nèi)容識別填充，圖像補全和修復(fù)。在這篇博客中，我會介紹 RaymondYeh 和 Chen Chen 等人的一篇論文，“基于感知和語境損失的圖像語義修補（Semantic Image Inpainting with Perceptual and ContextualLosses）”。論文在2016年7月26號發(fā)布于 arXiv 上，介紹了如何使用 DCGAN 網(wǎng)絡(luò)來進行圖像補全。

體驗一下半監(jiān)督學(xué)習(xí)。

將產(chǎn)生式對抗網(wǎng)絡(luò)（GAN）拓展到半監(jiān)督學(xué)習(xí)，通過強制判別器來輸出類別標簽。我們在一個數(shù)據(jù)集上訓(xùn)練一個產(chǎn)生式模型 G 以及一個判別器 D，輸入是N類當中的一個。在訓(xùn)練的時候，D被用于預(yù)測輸入是屬于 N+1的哪一個，這個+1是對應(yīng)了G的輸出。這種方法可以用于創(chuàng)造更加有效的分類器，并且可以比普通的GAN 產(chǎn)生更加高質(zhì)量的樣本。

文章標題：Semi-Supervised Learning with Generative Adversarial Networks；文章鏈接：https://arxiv.org/abs/1606.01583。

文章標題：Improved Techniques for Training GANs

文章鏈接：https://arxiv.org/abs/1606.03498

開始介紹多標簽預(yù)測（同時完成real/fake, 樣本類別等的預(yù)測）；

Next video frame prediction（未來幀預(yù)測）主要完成的任務(wù)是根據(jù)視頻中已有幀的相關(guān)數(shù)據(jù)預(yù)測某一幀所對應(yīng)的下一幀數(shù)據(jù)，例如圖中所示的人物頭像數(shù)據(jù)（文章主要利用大量未標注數(shù)據(jù)）。通過GAN對其之前數(shù)據(jù)規(guī)律的學(xué)習(xí)，合成其未發(fā)生的下一幀數(shù)據(jù)。這可以使我們通過海量數(shù)據(jù)的學(xué)習(xí)，達到預(yù)測未來未發(fā)生事件的效果。

圖中所示3張人物頭像數(shù)據(jù)，圖1為原始圖像，圖2是通過傳統(tǒng)圖像合成方式所得圖像，圖3為通過GAN生成的圖像。通過圖2和圖3的對比可以發(fā)現(xiàn)通過GAN合成的圖像邊緣模糊情況大大減輕，圖像分辨率有所提高，紋理與原圖也更接近。這是Lotter 等人在2016年提出了一種新穎的“PredNet”結(jié)構(gòu)。文章標題：Deep Predictive CodingNetworks for Video Prediction and Unsupervised Learning。網(wǎng)址鏈接：https://arxiv.org/abs/1605.08104。

這個工作是Yann LeCun組的Michael Mathieu等人 2015年提出的，文章標題：Deep multi-scale videoprediction beyond mean square error。網(wǎng)址鏈接：https://arxiv.org/abs/1511.06434。

主要是用對抗式訓(xùn)練進行視頻預(yù)測的，研究解決了一個非常重要的問題，那就是，當你訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)（或者其他任何模型）來預(yù)測未來，如果要預(yù)測的東西有多種可能性時，一個網(wǎng)絡(luò)以傳統(tǒng)的方式進行預(yù)測（比如，用最小平方），將會預(yù)測出所有可能性的平均值。在視頻的例子中，有很多模糊的混亂。對抗式訓(xùn)練能讓系統(tǒng)產(chǎn)出其想要的任何東西，只要是在鑒別器喜歡的任何數(shù)據(jù)庫內(nèi)就可以，這解決了在不確定條件下進行預(yù)測的“模糊”難題。

下面介紹根據(jù)環(huán)境需要生成相應(yīng)數(shù)據(jù)。

在自動生成任務(wù)中，在線時尚科技公司 Vue.ai 開發(fā)了一種或?qū)⑷〈Ｌ氐淖詣由稍囇b照片的系統(tǒng)，該系統(tǒng)使用GAN技術(shù)，可以控制所需模特照片的體型、膚色、身高、鞋子等等，不僅是模特，攝影師和工作室都可以不需要了，對于電商和零售業(yè)來說是好消息。這項技術(shù)由 Vue.ai 的 Anand Chandrasekaran 和 Costa Colbert 開發(fā)，使用了生成對抗網(wǎng)絡(luò)（GAN）的機器學(xué)習(xí)方法。這個系統(tǒng)由兩個AI組成：一個生成器（generative）和一個評論家（critic），生成器試圖生成一張看起來很好的圖像，而批評家則決定這張圖像是否看起來足夠好。

跳過兩部分，直接講如何得到數(shù)據(jù)的embedding（特征表示）信息。

在特征表示學(xué)習(xí)這塊，Radford 等人在2015年提出了DCGAN，文章標題是：Unsupervised Representation Learning with DeepConvolutional Generative Adversarial Networks，網(wǎng)址鏈接：https://arxiv.org/abs/1511.06434。

這篇文章，主要是想從大量無標簽數(shù)據(jù)集中學(xué)習(xí)可重復(fù)使用的特征表示。在計算機視覺的背景下，實際上，可以利用不限數(shù)量的無標簽圖像和視頻來學(xué)習(xí)一個好的中間表示，這個表示可以用在大量有監(jiān)督的學(xué)習(xí)任務(wù)上，例如圖像分類。提出一種方法，可以建立好的圖像表示，通過訓(xùn)練對抗生成網(wǎng)絡(luò)（GAN），并且反復(fù)利用生產(chǎn)網(wǎng)絡(luò)和辨別網(wǎng)絡(luò)的一部分作為有監(jiān)督任務(wù)的特征提取。熟悉卷積神經(jīng)網(wǎng)絡(luò)（CNN）的同學(xué)對此應(yīng)該不會陌生，這其實就是一個反向的 CNN。

熟悉NLP 的同學(xué)可能發(fā)現(xiàn)了，這就很像 word2vec 里面的：king- man + woman = queen。做個向量/矩陣加減并不難，難的是把加減后得到的向量/矩陣還原成「圖義」上代表的圖片。在 NLP 中，word2vec 是把向量對應(yīng)到有意義的詞。在這里，DCGAN 是把矩陣對應(yīng)到有意義的圖片。即：戴墨鏡的男人 - 不戴墨鏡的男人 + 不戴墨鏡的女人= 戴墨鏡的女人

在樣本生成這一過程，生成對抗網(wǎng)絡(luò)實現(xiàn)這些需要多久？

Odena等人在2016年提出了Auxiliary Classifier GANs（AC-GANs），文章名字是：Conditional Image Synthesis with Auxiliary Classifier GANs。網(wǎng)址鏈接：https://arxiv.org/abs/1610.09585。

主要提出AC-GAN模型，在D又新加了分類器，在輸出樣本真假的同時輸出類別，在D的輸出部分添加一個輔助的分類器來提高條件GAN的性能。針對任務(wù)，提出這種新的Inception Accuracy的評價方法，并引入了MS-SSIM用于判斷模型生成圖片的多樣性。