MirrorGAN出世！浙大等提出文本-圖像新框架，刷新COCO紀錄

marser 發布于2019-04-25 18:33 / 3498人閱讀

摘要：最近，來自浙江大學悉尼大學等高校的研究人員，提出一種新穎的全局局部注意和語義保持的文本圖像文本框架來解決這個問題，這種框架稱為。目前，論文已被接收。喬婷婷，浙江大學計算機學院博士研究生，目前在悉尼大學陶大程教授研究小組工作。

GAN又開辟了新疆界。

去年英偉達的StyleGAN在生成高質量和視覺逼真的圖像，騙過了無數雙眼睛，隨后一大批假臉、假貓、假房源隨之興起，可見GAN的威力。

StyleGAN生成假臉

雖然GAN在圖像方面已經取得了重大進展，但是保證文本描述和視覺內容之間的語義一致性上仍然是非常具有挑戰性的。

最近，來自浙江大學、悉尼大學等高校的研究人員，提出一種新穎的全局-局部注意和語義保持的文本-圖像-文本(text-to-image-to-text)框架來解決這個問題，這種框架稱為MirrorGAN。

MirrorGAN有多強？

在目前較為主流的數據集COCO數據集和CUB鳥類數據集上，MirrorGAN都取得了較好成績。

目前，論文已被CVPR2019接收。

MirrorGAN：解決文本和視覺之間語義一致性

文本生成圖像（T2I）在許多應用領域具有巨大的潛力，已經成為自然語言處理和計算機視覺領域的一個活躍的研究領域。

與基本圖像生成問題相反，T2I生成以文本描述為條件，而不是僅從噪聲開始。利用GAN的強大功能，業界已經提出了不同的T2I方法來生成視覺上逼真的和文本相關的圖像。這些方法都利用鑒別器來區分生成的圖像和相應的文本對以及ground-truth圖像和相應的文本對。

然而，由于文本和圖像之間的區域差異，當僅依賴于這樣的鑒別器時，對每對內的基礎語義一致性進行建模是困難且低效的。

近年來，針對這一問題，人們利用注意機制來引導生成器在生成不同的圖像區域時關注不同的單詞。然而，由于文本和圖像模式的多樣性，僅使用單詞級的注意并不能確保全局語義的一致性。如圖1(b)所示：

圖1 ?(a)鏡像結構的說明，體現了通過重新描述學習文本到圖像生成的思想；(b)-(c)前人的研究成果與本文提出的MirrorGAN分別生成的語義不一致和一致的圖像/重新描述。

T2I生成可以看作是圖像標題(或圖像到文本生成，I2T)的逆問題，它生成給定圖像的文本描述?？紤]到處理每個任務都需要對這兩個領域的底層語義進行建模和對齊，因此在統一的框架中對這兩個任務進行建模以利用底層的雙重規則是自然和合理的。

如圖1 (a)和(c)所示，如果T2I生成的圖像在語義上與給定的文本描述一致，則I2T對其重新描述應該與給定的文本描述具有完全相同的語義。換句話說，生成的圖像應該像一面鏡子，準確地反映底層文本語義。

基于這一觀察結果，論文提出了一個新的文本-圖像-文本的框架——MirrorGAN來改進T2I生成，它利用了通過重新描述學習T2I生成的思想。

解剖MirrorGAN三大核心模塊

對于T2I這一任務來說，主要的目標有兩個：

視覺真實性；

語義

且二者需要保持一致性。

MirrorGAN利用了“文本到圖像的重新描述學習生成”的思想，主要由三個模塊組成：

語義文本嵌入模塊(STEM)；

級聯圖像生成的全局-局部協同關注模塊(GLAM);

語義文本再生與對齊模塊(STREAM)。

STEM生成單詞級和句子級的嵌入；GLAM有一個級聯的架構，用于從粗尺度到細尺度生成目標圖像，利用局部詞注意和全局句子注意，逐步增強生成圖像的多樣性和語義一致性；STREAM試圖從生成的圖像中重新生成文本描述，該圖像在語義上與給定的文本描述保持一致。

圖2 ?MirrorGAN原理圖

如圖2所示，MirrorGAN通過集成T2I和I2T來體現鏡像結構。

它利用了通過重新描述來學習T2I生成的想法。生成圖像后，MirrorGAN會重新生成其描述，該描述將其基礎語義與給定的文本描述對齊。

以下是MirrorGAN三個模塊組成：STEM，GLAM和STREAM。

STEM：語義文本嵌入模塊

首先，引入語義文本嵌入模塊，將給定的文本描述嵌入到局部詞級特征和全局句級特征中。

如圖2最左邊所示(即上圖)，使用一個遞歸神經網絡(RNN)從給定的文本描述中提取語義嵌入T，包括一個嵌入w的單詞和一個嵌入s的句子。

GLAM：級聯圖像生成的全局-局部協同關注模塊

接下來，通過連續疊加三個圖像生成網絡，構造了一個多級級聯發生器。

本文采用了《Attngan: Fine-grained text to image generation with attentional generative adversarial networks》中描述的基本結構，因為它在生成逼真的圖像方面有很好的性能。

使用{F0，F1，…，Fm-1}來表示m個視覺特征變換器，并使用{G0，G1，…，Gm-1}來表示m個圖像生成器。每個階段中的視覺特征Fi和生成的圖像Ii可以表示為：

STREAM：語義文本再生與對齊模塊

如上所述，MirrorGAN包括語義文本再生和對齊模塊（STREAM），以從生成的圖像重新生成文本描述，其在語義上與給定的文本描述對齊。

具體來說，采用了廣泛使用的基于編碼器解碼器的圖像標題框架作為基本的STREAM架構。

圖像編碼器是在ImageNet上預先訓練的卷積神經網絡(CNN)，解碼器是RNN。由末級生成器生成的圖像Im-1輸入CNN編碼器和RNN解碼器如下：

實驗結果：COCO數據集上成績較佳

那么，MirrorGAN的性能有多強呢？

首先來看一下MirrorGAN與其它較先進的T2I方法的比較，包括GAN-INT-CLS、GAWWN、StackGAN、StackGAN ++ 、PPGN和AttnGAN。

所采用的數據集是目前較為主流的數據集，分別是COCO數據集和CUB鳥類數據集：

CUB鳥類數據集包含8,855個訓練圖像和2,933個屬于200個類別的測試圖像，每個鳥類圖像有10個文本描述；

OCO數據集包含82,783個訓練圖像和40,504個驗證圖像，每個圖像有5個文本描述。?

結果如表1所示：

表1 ?在CUB和COCO數據集上，MirrorGAN和其它先進方法的結果比較

表2展示了AttnGAN和MirrorGAN在CUB和COCO數據集上的R精度得分。

表2 ?在CUB和COCO數據集上，MirrorGAN和AttnGAN的R精度得分。

在所有實驗比較中，MirrorGAN都表現出了更大的優勢，這表明了本文提出的文本到圖像到文本的框架和全局到本地的協作關注模塊的優越性，因為MirrorGAN生成的高質量圖像具有與輸入文本描述一致的語義。

作者介紹

最后再介紹一下論文的四位作者。

Tingting Qiao（喬婷婷），浙江大學計算機學院博士研究生，目前在悉尼大學陶大程教授研究小組工作。

喬婷婷（圖據LinkedIn）

Jing Zhang，博士，杭州電子科技大學講師，悉尼大學訪問學者。

Jing Zhang

許端清，浙江大學計算機與技術學院教授、博士生導師。

許端清

陶大程，悉尼大學工程及信息技術學院教授，優必選悉尼大學AI中心主任。

陶大程

目前，喬婷婷和Jing Zhang都在參與陶大程教授的工作。

值得注意的是，許端清教授曾承擔國家社科基金重大項目（子課題）“敦煌遺書數據庫關鍵技術研究及軟件系統開發”，建立敦煌藏文基本信息庫系統，喬婷婷也是當時的參與者之一。

兩年之后的2017年，“石窟寺文物數字化保護國家文物局重點科研基地”在浙大揭牌，聚焦“石窟寺文物數字化保護“。這篇MirrorGAN的論文，在文本和圖像的轉換中加入了對語義的研究，使得這項任務的精度再次提高。

AI技術在文物數字化相關工作中，讓古老的文字再添新生的活力，我們離歷史更近，離文化更近。

論文地址：

https://arxiv.org/abs/1903.05854

聲明：本文版權歸原作者所有，文章收集于網絡，為傳播信息而發，如有侵權，請聯系小編及時處理，謝謝！

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器刷新紀錄浙大網新機柜出租價格 ddos 攻擊新紀錄:每秒 1720 萬次 http 請求! 下拉刷新框架

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/4873.html

「正經字幕」太無聊？「神經玩笑機」就可以生成逗你笑的趣味字幕

摘要：最后，我們顯示了若干張圖像中所生成的趣味字幕。圖所提出的有趣字幕生成的體系結構。我們將所提出的方法稱為神經玩笑機器，它是與預訓練模型相結合的。用戶對已發布的字幕的趣味性進行評估，并為字幕指定一至三顆星。可以毫不夸張地說，笑是一種特殊的高階功能，且只有人類才擁有。那么，是什么引起人類的笑聲表達呢？最近，日本東京電機大學（Tokyo Denki University）和日本國家先進工業科學和技...

lastSeries 2019-04-25 18:27 評論0 收藏0
Facebook何愷明等大神最新論文提出非局部神經網絡

摘要：何愷明和兩位大神最近提出非局部操作為解決視頻處理中時空域的長距離依賴打開了新的方向。何愷明等人提出新的非局部通用網絡結構，超越。殘差連接是何愷明在他的年較佳論文中提出的。 Facebook何愷明和RGB兩位大神最近提出非局部操作non-local operations為解決視頻處理中時空域的長距離依賴打開了新的方向。文章采用圖像去噪中常用的非局部平均的思想處理局部特征與全圖特征點的關系。這種...

nevermind 2019-04-25 18:22 評論0 收藏0
ECCV 2018 | CornerNet：目標檢測算法新思路

摘要：表示類別為，坐標是的預測熱點圖，表示相應位置的，論文提出變體表示檢測目標的損失函數由于下采樣，模型生成的熱點圖相比輸入圖像分辨率低。模型訓練損失函數使同一目標的頂點進行分組，損失函數用于分離不同目標的頂點。本文由極市博客原創，作者陳泰紅。 1.目標檢測算法概述 CornerNet（https://arxiv.org/abs/1808.01244）是密歇根大學Hei Law等人在發表E...

awkj 2019-06-26 18:33 評論0 收藏0
[ResNet系] 001 ResNet

摘要：在本文中，快捷連接是為了實現恒等映射，它的輸出與一組堆疊層的輸出相加見圖。實驗表明見圖，學習得到的殘差函數通常都是很小的響應值，表明將恒等映射作為先決條件是合理的。 ResNet Deep Residual Learning for Image RecognitionKaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Caffe實現：ht...

greatwhole 2019-06-26 18:15 評論0 收藏0
機器學習和深度學習引用量最高的20篇論文（2014-2017）

摘要：機器學習和深度學習的研究進展正深刻變革著人類的技術，本文列出了自年以來這兩個領域發表的最重要被引用次數最多的篇科學論文，以饗讀者。注意第篇論文去年才發表要了解機器學習和深度學習的進展，這些論文一定不能錯過。機器學習和深度學習的研究進展正深刻變革著人類的技術，本文列出了自 2014 年以來這兩個領域發表的最重要（被引用次數最多）的 20 篇科學論文，以饗讀者。機器學習，尤其是其子領域深度學習...

jollywing 2019-04-25 18:11 評論0 收藏0