提高GAN訓練穩定性的9大tricks

Xufc 發布于2019-04-25 18:31 / 2208人閱讀

摘要：另外，在損失函數中加入感知正則化則在一定程度上可緩解該問題。替代損失函數修復缺陷的最流行的補丁是。的作者認為傳統損失函數并不會使收集的數據分布接近于真實數據分布。原來損失函數中的對數損失并不影響生成數據與決策邊界的距離。

盡管 GAN 領域的進步令人印象深刻，但其在應用過程中仍然存在一些困難。本文梳理了 GAN 在應用過程中存在的一些難題，并提出了的解決方法。

使用 GAN 的缺陷

眾所周知，GAN 是由 Generator 生成網絡和 Discriminator 判別網絡組成的。

1. Mode collapse（模型崩潰）

注：Mode collapse 是指 GAN 生成的樣本單一，其認為滿足某一分布的結果為 true，其他為 False，導致以上結果。

自然數據分布是非常復雜，且是多峰值的（multimodal）。也就是說數據分布有很多的峰值（peak）或眾數（mode）。每個 mode 都表示相似數據樣本的聚集，但與其他 mode 是不同的。

在 mode collapse 過程中，生成網絡 G 會生成屬于有限集 mode 的樣本。當 G 認為可以在單個 mode 上欺騙判別網絡 D 時，G 就會生成該 mode 外的樣本。 ? ??

上圖表示 GAN 的輸出沒有 mode collapse. 下圖則出現了 mode collapse。

判別網絡最后會判別來自該 mode 的樣本是假的。最后，生成網絡 G 會簡單地鎖定到另一個 mode。該循環會無限進行，就會限制生成樣本的多樣性。

2. Convergence（收斂）

GAN 訓練過程中遇到的一個問題是什么時候停止訓練？因為判別網絡 D 損失降級會改善生成網絡 G 的損失（反之亦然），因此無法根據損失函數的值來判斷收斂，如下圖所示：

典型的GAN損失函數圖。注意該如何從這個圖中解釋收斂性。

3. Quality（質量）

與前面提到的收斂問題一樣，很難量化地判斷生成網絡 G 什么時候會生成高質量的樣本。另外，在損失函數中加入感知正則化則在一定程度上可緩解該問題。

4. Metrics（度量）

GAN 的目標函數解釋了生成網絡 G 或判別網絡 D 如何根據組件來執行，但它卻不表示輸出的質量和多樣性。因此，需要許多不同的度量指標來進行衡量。

改善性能的技術

下面總結了一些可以使 GAN 更加穩定使用的技術。

1. Alternative Loss Functions （替代損失函數）

修復 GAN 缺陷的最流行的補丁是 ?Wasserstein GAN （https://arxiv.org/pdf/1701.07875.pdf）。該 GAN 用 Earth Mover distance ( Wasserstein-1 distance 或 EM distance) 來替換傳統 GAN 的 Jensen Shannon divergence ( J-S 散度) 。EM 距離的原始形式很難理解，因此使用了雙重形式。這需要判別網絡是 1-Lipschitz，通過修改判別網絡的權重來維護。

使用 Earth Mover distance 的優勢在于即使真實的生成數據分布是不相交的，它也是連續的。同時，在生成的圖像質量和損失值之間存在一定關系。使用 Earth Mover distance 的劣勢在于對于每個生成模型 G ?都要執行許多判別網絡 D 的更新。而且，研究人員認為權重修改是確保 1-Lipschitz 限制的極端方式。

左圖中 earth mover distance 是連續的, 即便其分布并不連續, 這不同于優圖中的 the Jensen Shannon divergence。

另一個解決方案是使用均方損失（ mean squared loss ）替代對數損失（ log loss ）。LSGAN （https://arxiv.org/abs/1611.04076）的作者認為傳統 GAN 損失函數并不會使收集的數據分布接近于真實數據分布。

原來 GAN ?損失函數中的對數損失并不影響生成數據與決策邊界（decision boundary）的距離。另一方面，LSGAN 也會對距離決策邊界較遠的樣本進行懲罰，使生成的數據分布與真實數據分布更加靠近，這是通過將均方損失替換為對數損失來完成的。

2. Two Timescale Update Rule (TTUR)

在 TTUR 方法中，研究人員對判別網絡 D 和生成網絡 G 使用不同的學習速度。低速更新規則用于生成網絡 G ，判別網絡 D使用高速更新規則。使用 TTUR 方法，研究人員可以讓生成網絡 G 和判別網絡 D 以 1:1 的速度更新。 SAGAN （https://arxiv.org/abs/1805.08318）就使用了 TTUR 方法。

3. Gradient Penalty （梯度懲罰）

論文Improved Training of WGANs（https://arxiv.org/abs/1704.00028）中，作者稱權重修改會導致優化問題。權重修改會迫使神經網絡學習學習更簡單的相似（simpler approximations）達到最優數據分布，導致結果質量不高。同時如果 WGAN 超參數設置不合理，權重修改可能會出現梯度消失或梯度爆炸的問題，論文作者在損失函數中加入了一個簡單的梯度懲罰機制以緩解該問題。

加入 Gradient Penalty 作為正則化器

DRAGAN （https://arxiv.org/abs/1705.07215）的作者稱，當 GAN 的博弈達到一個局部平衡態（local equilibrium state），就會出現 mode collapse 的問題。而且判別網絡 D 在這種狀態下產生的梯度是非常陡（sharp）的。一般來說，使用梯度懲罰機制可以幫助避免這種狀態的產生，極大增強 GAN 的穩定性，盡可能減少 mode collapse 問題的產生。

4. Spectral Normalization（譜歸一化）

Spectral normalization 是用在判別網絡 D 來增強訓練過程的權重正態化技術（weight normalization technique），可以確保判別網絡 D 是 K-Lipschitz 連續的。 SAGAN (https://arxiv.org/abs/1805.08318)這樣的實現也在判別網絡 D 上使用了譜正則化。而且該方法在計算上要比梯度懲罰方法更加高效。

5. Unrolling and Packing (展開和打包)

文章 Mode collapse in GANs（http://aiden.nibali.org/blog/2017-01-18-mode-collapse-gans/）中提到一種預防 mode hopping 的方法就是在更新參數時進行預期對抗（anticipate counterplay）。展開的 GAN ( Unrolled GANs ）可以使用生成網絡 G 欺騙判別網絡 D，然后判別網絡 D 就有機會進行響應。

另一種預防 mode collapse 的方式就是把多個屬于同一類的樣本進行打包，然后傳遞給判別網絡 D 。PacGAN （https://arxiv.org/abs/1712.04086）就融入了該方法，并證明可以減少 mode collapse 的發生。

6. 多個 GAN

一個 GAN 可能不足以有效地處理任務，因此研究人員提出使用多個連續的 GAN ，每個 GAN 解決任務中的一些簡單問題。比如，FashionGAN（https://www.cs.toronto.edu/~urtasun/publications/zhu_etal_iccv17.pdf）就使用 2 個 GAN 來執行圖像定位翻譯。

FashionGAN 使用兩個 GANs 進行圖像定位翻譯。

因此，可以讓 GAN 慢慢地解決更難的問題。比如 Progressive GANs (ProGANs，https://arxiv.org/abs/1710.10196) 就可以生成分辨率極高的高質量圖像。

7. Relativistic GANs（相對生成對抗網絡）

傳統的 GAN 會測量生成數據為真的可能性。Relativistic GANs 則會測量生成數據“逼真”的可能性。研究人員可以使用相對距離測量方法（appropriate distance measure）來測量相對真實性（relative realism），相關論文鏈接：https://arxiv.org/abs/1807.00734。

圖 A 表示 JS 散度的最優解，圖 B 表示使用標準 GAN 損失時判別網絡 D 的輸出，圖 C 表示輸出曲線的實際圖。

在論文中，作者提到判別網絡 D 達到最優狀態時，D 的輸出應該聚集到 0.5。但傳統的 GAN 訓練算法會讓判別網絡 D 對圖像輸出“真實”（real，1）的可能性，這會限制判別網絡 D 達到最優性能。不過這種方法可以很好地解決這個問題，并得到不錯的結果。

經過 5000 次迭代后，標準 GAN (左)和相對 GAN (右)的輸出。

8. Self Attention Mechanism（自注意力機制）

Self Attention GANs（https://arxiv.org/abs/1805.08318）作者稱用于生成圖像的卷積會關注本地傳播的信息。也就是說，由于限制性接收域這會錯過廣泛傳播關系。

將 attention map (在黃色框中計算)添加到標準卷積操作中。

Self-Attention Generative Adversarial Network 允許圖像生成任務中使用注意力驅動的、長距依賴的模型。自注意力機制是對正常卷積操作的補充，全局信息（長距依賴）會用于生成更高質量的圖像，而用來忽略注意力機制的神經網絡會考慮注意力機制和正常的卷積。（相關論文鏈接：https://arxiv.org/pdf/1805.08318.pdf）。

使用紅點標記的可視化 attention map。

9. 其他技術

其他可以用來改善 GAN 訓練過程的技術包括：

特征匹配

Mini Batch Discrimination（小批量判別）

歷史平均值

One-sided Label Smoothing（單側標簽平滑）

Virtual Batch Normalization（虛擬批量正態化）

更多GAN技術

https://github.com/soumith/ganhacks。

原文鏈接：

https://medium.com/beyondminds/advances-in-generative-adversarial-networks-7bad57028032

聲明：文章收集于網絡，為傳播信息而發，如有侵權，請聯系小編及時處理，謝謝！

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器 trick tricks GAN gan 數據擴增

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/4846.html

令人拍案叫絕的Wasserstein GAN

摘要：測度是高維空間中長度面積體積概念的拓廣，可以理解為超體積。前作其實已經針對第二點提出了一個解決方案，就是對生成樣本和真實樣本加噪聲，直觀上說，使得原本的兩個低維流形彌散到整個高維空間，強行讓它們產生不可忽略的重疊。在GAN的相關研究如火如荼甚至可以說是泛濫的今天，一篇新鮮出爐的arXiv論文《Wasserstein GAN》卻在Reddit的Machine Learning頻道火了，連Go...

lieeps 2019-04-25 18:08 評論0 收藏0
一文幫你發現各種出色的GAN變體

摘要：也是相關的，因為它們已經成為實現和使用的主要基準之一。在本文發表之后不久，和中有容易獲得的不同實現用于測試你所能想到的任何數據集。在這篇文章中，作者提出了對訓練的不同增強方案。在這種情況下，鑒別器僅用于指出哪些是值得匹配的統計信息。本文不涉及的內容首先，你不會在本文中發現：復雜的技術說明代碼（盡管有為那些感興趣的人留的代碼鏈接）詳盡的研究清單（點擊這里進行查看鏈接：http://suo....

qpal 2019-04-25 18:11 評論0 收藏0
生成對抗網絡GAN最近在NLP領域有哪些應用？

摘要：直接把應用到領域主要是生成序列，有兩方面的問題最開始是設計用于生成連續數據，但是自然語言處理中我們要用來生成離散的序列。如圖，針對第一個問題，首先是將的輸出作為，然后用來訓練。我來答一答自然語言處理方面GAN的應用。直接把GAN應用到NLP領域（主要是生成序列），有兩方面的問題：1. GAN最開始是設計用于生成連續數據，但是自然語言處理中我們要用來生成離散tokens的序列。因為生成器(G...

asoren 2019-04-25 18:12 評論0 收藏0
近期GAN的模型和理論發展

摘要：于是，中將做了拆解，認為中生成模型應該包含的先驗分成兩種不能再做壓縮的和可解釋地有隱含意義的一組隱變量，簡寫為。利用這種更加細致的隱變量建模控制，可以說將的發展又推動了一步。摘要在過去一兩年中，生成式模型 Generative Adversarial Networks（GAN）的新興為生成式任務帶來了不小的進展。盡管 GAN 在被提出時存在訓練不穩定等諸多問題，但后來的研究者們分別從模型、...

Alfred 2019-04-25 18:03 評論0 收藏0
神經網絡訓練tricks

摘要：下面介紹一些值得注意的部分，有些簡單解釋原理，具體細節不能面面俱到，請參考專業文章主要來源實戰那我們直接從拿到一個問題決定用神經網絡說起。當你使用時可以適當減小學習率，跑過神經網絡的都知道這個影響還蠻大。神經網絡構建好，訓練不出好的效果怎么辦？明明說好的擬合任意函數(一般連續)(為什么？可以參考http://neuralnetworksanddeeplearning.com/)，說好的足夠...

Jenny_Tong 2019-04-25 18:32 評論0 收藏0