深度學(xué)習(xí)大神新作，神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言翻譯應(yīng)用

helloworldcoding 發(fā)布于2019-04-25 18:04 / 3813人閱讀

摘要：神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理方面，未來(lái)有巨大的應(yīng)用潛力。講座學(xué)者之一與深度學(xué)習(xí)大神蒙特利爾大學(xué)學(xué)者在大會(huì)上發(fā)表了論文，進(jìn)一步展現(xiàn)神經(jīng)機(jī)器翻譯的研究結(jié)果。那些指令的語(yǔ)義就是習(xí)得的進(jìn)入嵌入中，來(lái)較大化翻譯質(zhì)量，或者模型的對(duì)數(shù)似然函數(shù)。

在 8月7日在德國(guó)柏林召開(kāi)的2016 計(jì)算語(yǔ)言學(xué)(ACL)大會(huì)上，學(xué)者Thang Luong、Kyunghyun Cho 和 Christopher D. Manning進(jìn)行了關(guān)于神經(jīng)機(jī)器翻譯(NMT)的講座。神經(jīng)機(jī)器翻譯是一種簡(jiǎn)單的新架構(gòu)，可以讓機(jī)器學(xué)會(huì)翻譯。該方法雖然相對(duì)較新，已經(jīng)顯示出了非常好的效果，在各種語(yǔ)言對(duì)上都實(shí)現(xiàn)了最頂尖的表現(xiàn)。神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理方面，未來(lái)有巨大的應(yīng)用潛力。

講座學(xué)者之一 Kyunghyn Cho 與深度學(xué)習(xí)“大神” Yoshua Bengio、蒙特利爾大學(xué)學(xué)者 Junyoung Chung 在 ACL 大會(huì)上發(fā)表了論文，進(jìn)一步展現(xiàn)神經(jīng)機(jī)器翻譯的研究結(jié)果。在此，雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)為大家分享名為《針對(duì)神經(jīng)機(jī)器翻譯，無(wú)需顯性分割的字符等級(jí)解碼器》論文全文。

概況

現(xiàn)有的機(jī)器翻譯系統(tǒng)，無(wú)論是基于詞組的還是神經(jīng)的，幾乎全部都依靠使用顯性分割的、詞語(yǔ)等級(jí)的建模。在這篇論文中，我們提出一個(gè)基本問(wèn)題：神經(jīng)機(jī)器翻譯能否在生成字符序列時(shí)，不使用任何顯性分割?要回答這一問(wèn)題，我們分析一個(gè)基于注意的編碼器解碼器，在四個(gè)語(yǔ)言對(duì)——En-Cs、En-De、En-Ru 和 En-Fi——中，帶有子字等級(jí)的編碼器，以及一個(gè)字符等級(jí)的解碼器，使用 WMT’ 15 的平行語(yǔ)料庫(kù)。我們的實(shí)驗(yàn)證明，帶有字符等級(jí)解碼器的模型在所有四個(gè)語(yǔ)言對(duì)上，表現(xiàn)都優(yōu)于帶有子字等級(jí)解碼器的模型。并且，帶有字符等級(jí)解碼器的神經(jīng)模型組合在 En-Cs、En-De 和 En-Fi 上優(yōu)于較先進(jìn)的非神經(jīng)機(jī)器翻譯系統(tǒng)，在 En-Ru 上表現(xiàn)相當(dāng)。

1、簡(jiǎn)介

現(xiàn)有的機(jī)器翻譯系統(tǒng)幾乎全部都依靠使用顯性分割的、詞語(yǔ)等級(jí)的建模。這主要是因?yàn)閿?shù)據(jù)稀疏性的問(wèn)題，這當(dāng)句子表征為一系列字符而非詞語(yǔ)時(shí)這個(gè)問(wèn)題更為嚴(yán)重，尤其是針對(duì) n-gram，由于序列的長(zhǎng)度大大增加了。除了數(shù)據(jù)稀疏性之外，我們經(jīng)常先入為主地相信詞語(yǔ)——或其分割出的詞位——是語(yǔ)義最基本的單位，使我們很自然地認(rèn)為翻譯就是將一系列的源語(yǔ)言詞語(yǔ)匹配為一系列的目標(biāo)語(yǔ)言詞語(yǔ)。

在最近提出的神經(jīng)機(jī)器翻譯范示中，這種觀點(diǎn)也延續(xù)了下來(lái)，雖然神經(jīng)網(wǎng)絡(luò)不受到字符等級(jí)建模的拖累，但是會(huì)被詞語(yǔ)等級(jí)建模所特有的問(wèn)題影響，例如目標(biāo)語(yǔ)言的詞匯量非常大，會(huì)造成增加的計(jì)算復(fù)雜性。因此，這篇論文中，我們研究神經(jīng)機(jī)器翻譯是否能夠直接在一系列字符上進(jìn)行，無(wú)需顯性的詞語(yǔ)分割。

為了回答這一問(wèn)題，我們專注在將目標(biāo)方表征為一個(gè)字符序列。我們用字符等級(jí)的解碼器在 WMT’ 15 的四個(gè)語(yǔ)言對(duì)上評(píng)估神經(jīng)機(jī)器翻譯模型，讓我們的評(píng)估具有很強(qiáng)的說(shuō)服力。我們將源語(yǔ)言一方表征為一個(gè)子字序列，使用從 Sennrich 等人(2015) 中編碼的字節(jié)對(duì)將其抽取而出，并將目標(biāo)方改變?yōu)橐粋€(gè)子字或者字符序列。在目標(biāo)方，我們進(jìn)一步設(shè)計(jì)了一個(gè)新的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)，稱為雙度量循環(huán)神經(jīng)網(wǎng)絡(luò)，能更好地處理序列中的多個(gè)時(shí)標(biāo)，并額外在一個(gè)新的、堆積的循環(huán)神經(jīng)網(wǎng)絡(luò)中測(cè)試。

在所有四個(gè)語(yǔ)言對(duì)中——En-Cs、En-De、En- Ru 和 En-Fi——帶有字符等級(jí)解碼器的模型比帶有子字等級(jí)解碼器的模型更好。我們?cè)诿恳粋€(gè)這些配置的組合中都觀察到了類似的趨勢(shì)，在 En-Cs、En-De 和 En-Fi 中超過(guò)了之前較好的神經(jīng)和非神經(jīng)翻譯系統(tǒng)，而在 En-Ru 上實(shí)現(xiàn)了相同的結(jié)果。我們發(fā)現(xiàn)這些結(jié)果強(qiáng)有力地證明了，神經(jīng)機(jī)器翻譯真的可以學(xué)會(huì)在字符等級(jí)翻譯，并且其實(shí)可以從中獲益。

2、神經(jīng)機(jī)器翻譯

神經(jīng)機(jī)器翻譯指的是一個(gè)最近提出的機(jī)器翻譯方法(Forcada 和 Neco, 1997;Kalchbrenner 和 Blunsom, 2013;Cho 等人, 2014;Sutskever 等人, 2014)。這種方法的目標(biāo)是打造一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)，將輸入作為源句子 X = (x1, … , xTx)，并輸出其翻譯 Y = (y1, … , yTy)，其中 xt 和 yt’ 分別是源標(biāo)志和目標(biāo)標(biāo)志。這個(gè)神經(jīng)網(wǎng)絡(luò)的打造方式是作為一個(gè)編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。

編碼網(wǎng)絡(luò)將輸入句子 X 編碼為其連續(xù)的表征。在這篇論文中，我們緊密遵循 Bahdanau 等人(2015) 提出的神經(jīng)翻譯模型，使用一個(gè)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)，其中包含兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)。前饋網(wǎng)絡(luò)將輸入句子在前饋方向讀作：

其中 ex (xt) 是對(duì)第 t 個(gè)輸入象征的連續(xù)嵌入，是一個(gè)循環(huán)激活函數(shù)。相同地，反向網(wǎng)絡(luò)將句子以反方向(從右到左)讀入：

在輸入句子的每一個(gè)位置，我們將前饋和反向 RNN 中的隱藏狀態(tài)連接起來(lái)，形成一個(gè)情景組 C = { z1, …, zTx}，其中

然后，解碼器基于這個(gè)情景組，計(jì)算出所有可能翻譯的條件分布。首先，重寫(xiě)一個(gè)翻譯的條件分布：

在總和的每一個(gè)條件中，解碼器 RNN 通過(guò)以下方程(1)更新其隱藏狀態(tài)：

h’t = φ (ey (yt’ - 1), ht’-1, ct’), (1)

其中 ey 是一個(gè)目標(biāo)象征的連續(xù)嵌入。ct’ 是一個(gè)情景矢量，由以下的軟堆砌機(jī)制計(jì)算而出：

ct’ = falign ( ey (yt’-1), ht’-1, C) )。 (2)

這個(gè)軟對(duì)齊機(jī)制 falign 在情景 C 中基于已經(jīng)翻譯的內(nèi)容，根據(jù)相關(guān)性權(quán)衡每一個(gè)矢量。每一個(gè)矢量 zt 的權(quán)重是由以下的方程(3)計(jì)算而出：

其中 fscore 是一個(gè)參數(shù)函數(shù)，對(duì)于 ht’-1 和 yt’-1 返回一個(gè)非標(biāo)準(zhǔn)化的得分。

這篇論文中，我們使用一個(gè)帶有單一隱藏層的前饋網(wǎng)絡(luò)。 Z 是一個(gè)標(biāo)準(zhǔn)化的常數(shù)：

這個(gè)過(guò)程可以被理解為是在第 t’ 個(gè)目標(biāo)符號(hào)和第 t 個(gè)源符號(hào)之間計(jì)算對(duì)齊概率。

在隱藏狀態(tài) ht’ 與之前的目標(biāo)符號(hào) yt’-1 和情景矢量 ct’ 一起，輸入一個(gè)前饋神經(jīng)網(wǎng)絡(luò)，帶來(lái)以下的條件分布：

整個(gè)模型，由編碼器、加碼起和軟對(duì)齊機(jī)制構(gòu)成，然后經(jīng)過(guò)端到端的調(diào)試，使用隨機(jī)梯度下降將負(fù)面對(duì)數(shù)似然函數(shù)最小化。

3、向著字符等級(jí)翻譯

3.1 動(dòng)機(jī)

讓我們回顧源句子和目標(biāo)句子( X 和 Y ) 在神經(jīng)機(jī)器翻譯中是如何表征的。對(duì)于任何訓(xùn)練體中的源一方，我們可以掃描整體，來(lái)打造一個(gè)詞匯 Vx , 包含分配了整數(shù)標(biāo)記的令牌。然后，源句子 X 作為一系列屬于該句子的類似令牌的標(biāo)記，即 X = (x1, …, xTx) ,其中 xt ∈ { 1, 2, …, | Vx |}。與此類似地，目標(biāo)句子轉(zhuǎn)化為一個(gè)整數(shù)標(biāo)記的目標(biāo)序列。

然后，每一個(gè)令牌或其指數(shù)轉(zhuǎn)化為 |Vx|所謂的 one-hot 矢量。除了一個(gè)以外，矢量中所有的元素都設(shè)置為 0。一個(gè)指數(shù)對(duì)應(yīng)令牌指數(shù)的元素設(shè)置為 1。這個(gè) one-hot 矢量就是任何神經(jīng)機(jī)器翻譯模型所看見(jiàn)的。嵌入函數(shù) ex 或 ey，就是在這個(gè) one-hot 矢量上應(yīng)用一個(gè)線性轉(zhuǎn)化(嵌入矩陣)的結(jié)果。

這種基于 one-hot 矢量的方法的重要特點(diǎn)是，神經(jīng)網(wǎng)絡(luò)忽視指令的底層語(yǔ)義。對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，詞匯中的每一個(gè)指令，等同于與其他每個(gè)指令間的距離。那些指令的語(yǔ)義就是習(xí)得的(進(jìn)入嵌入中)，來(lái)較大化翻譯質(zhì)量，或者模型的對(duì)數(shù)似然函數(shù)。

這項(xiàng)特性讓我們?cè)谶x擇指令的單位時(shí)獲得了很大的自由度。神經(jīng)網(wǎng)絡(luò)已經(jīng)被證實(shí)與詞語(yǔ)指令配合良好 (Bengio 等人, 2001; Schwenk, 2007; Mikolov 等人, 2010)，還與更細(xì)微的單元也配合良好，例如子字(Sennrich 等人, 2015; Botha 和 Blunson, 2014; Luong 等人, 2013) 和壓縮或編碼造成的符號(hào)(Chitnis 和 DeNero, 2015)。雖然已經(jīng)有一系列先前的研究報(bào)告稱使用了帶有字符的神經(jīng)網(wǎng)絡(luò)(例如 Mikolov 等人 (2012) 和 Santos 和 Zadrozny (2014)的研究)，主流的方法一直是將文字預(yù)先處理為一系列符號(hào)，每個(gè)與一個(gè)字符系列相關(guān)聯(lián)，之后神經(jīng)網(wǎng)絡(luò)就用那些符號(hào)、而非字符來(lái)表征。

最近在神經(jīng)機(jī)器翻譯中，兩組研究團(tuán)隊(duì)已經(jīng)提出過(guò)直接使用字符。Kim 等人(2015)提出不像以前一樣以單一整數(shù)指令來(lái)代表每一個(gè)詞，而是作為一個(gè)字符序列，并使用一個(gè)卷積網(wǎng)絡(luò)，隨后用一個(gè)高速神經(jīng)網(wǎng)絡(luò)(Srivastava 等人, 2015)來(lái)抽取詞語(yǔ)的連續(xù)表征。這種方法有效替換了嵌入函數(shù) ex，被 Costa-Jussa 和 Fonollosa(2016)在神經(jīng)機(jī)器翻譯中采用。類似地，Ling 等人 (2015b) 使用了一個(gè)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)代替嵌入函數(shù) ex 和 ey，來(lái)分別從相應(yīng)的連續(xù)詞語(yǔ)表征中編碼一個(gè)字符序列，并且編碼進(jìn)這個(gè)連續(xù)表征中去。Lee 等人(2015) 提出了一個(gè)類似、但是略有不同的方法，他們用字符在詞語(yǔ)中的相對(duì)位置來(lái)顯性地標(biāo)記每一個(gè)字符，例如，英文單詞中的 “B”eginning 和 “I”ntermediate。

雖然這些最近的方法是研究字符層面，但還是不如人意，因?yàn)樗鼈兌家蕾囉诹私馊绾螌⒆址指顬樵~語(yǔ)。雖然總體上這在英語(yǔ)等語(yǔ)言中還是相對(duì)簡(jiǎn)單的，這并不總是可行的。這種詞語(yǔ)分割過(guò)程可以非常簡(jiǎn)單，就像帶有標(biāo)點(diǎn)符號(hào)常規(guī)化的指令化，不過(guò)，也可能非常復(fù)雜，就像詞素分割，需要預(yù)先訓(xùn)練一個(gè)多帶帶的模型(Creutz 和 Lagus, 2005; Huang 和 Zhao，2007;)。而且，這些分割步驟經(jīng)常是經(jīng)過(guò)微調(diào)的，或者與最終的翻譯質(zhì)量目標(biāo)分開(kāi)設(shè)計(jì)，潛在來(lái)說(shuō)可能造成非最優(yōu)的質(zhì)量。

基于這項(xiàng)觀察和分析，這篇論文中，我們向自己和讀者提出一個(gè)早該提出的問(wèn)題：有沒(méi)有可能，不使用任何顯性的分割，就進(jìn)行字符等級(jí)的翻譯?

3.2 為什么要使用詞語(yǔ)等級(jí)的翻譯?

(1)詞語(yǔ)作為語(yǔ)義的基本單位

詞語(yǔ)可以被理解為兩種意思。抽象意義來(lái)說(shuō)，一個(gè)詞語(yǔ)是語(yǔ)義(詞素)的基本單位，在另一種意義來(lái)說(shuō)，可以理解為“在句子中使用的具體詞語(yǔ)” (Booij，2012)。在第一種意義中，一個(gè)詞語(yǔ)通過(guò)詞語(yǔ)形態(tài)學(xué)的過(guò)程——包括變音、組合和衍生——轉(zhuǎn)化進(jìn)入第二種意義。這三種過(guò)程的確改變?cè)~素的含義，但是經(jīng)常與原意保持相近。因?yàn)檫@種語(yǔ)言學(xué)中的觀點(diǎn)認(rèn)為詞語(yǔ)是語(yǔ)義的基本單位(作為詞素或者衍生形式)，自然語(yǔ)言處理中的很多先前研究都將詞語(yǔ)作為基本單位，將句子編碼為詞語(yǔ)的序列。另外，匹配詞語(yǔ)的字符序列和語(yǔ)義的潛在困難，也可能推動(dòng)了這種詞語(yǔ)等級(jí)建模的潮流。

(2)數(shù)據(jù)稀疏性

還有另一個(gè)技術(shù)原因，使得很多之前對(duì)于翻譯匹配的研究都將詞語(yǔ)作為基本單位。這主要是因?yàn)楝F(xiàn)有翻譯系統(tǒng)中的主要組成部分——例如語(yǔ)言模型和詞組表——都是基于字?jǐn)?shù)的概率模擬。換句話說(shuō)，標(biāo)志子序列的概率(或者)一對(duì)標(biāo)志，估計(jì)的方法是數(shù)出它在訓(xùn)練體出現(xiàn)了幾次。這種方法嚴(yán)重地受到數(shù)據(jù)稀疏性問(wèn)題的影響，這是因?yàn)橐粋€(gè)很大的狀態(tài)空間，子序列會(huì)出現(xiàn)指數(shù)級(jí)別的增長(zhǎng)，而在訓(xùn)練體的體積方面只會(huì)線性增長(zhǎng)。這對(duì)字符等級(jí)的建模帶來(lái)了很大挑戰(zhàn)，由于當(dāng)使用字符(而非詞語(yǔ))時(shí)，任何子序列都會(huì)變長(zhǎng)平均 4-5 倍。的確，Vilar 等人(2007)的報(bào)告提出，當(dāng)基于詞組的機(jī)器翻譯系統(tǒng)直接使用字符序列時(shí)，表現(xiàn)變得更差。更加近期的，Neubig 等人(2013) 提出了一種方法，用基于詞組的翻譯系統(tǒng)來(lái)提升字符等級(jí)的翻譯，不過(guò)成效有限。

(3)消失的梯度

具體到神經(jīng)機(jī)器翻譯，之所以詞語(yǔ)等級(jí)的建模得到廣泛采用，有一個(gè)主要原因是對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的長(zhǎng)期依存性的建模難度(Bengio 等人, 1994; Hochreiter, 1998)。當(dāng)句子作為字符表征時(shí)，由于雙方句子長(zhǎng)度增長(zhǎng)，我們很容易相信未來(lái)會(huì)有更多的長(zhǎng)期依存性，循環(huán)神經(jīng)網(wǎng)絡(luò)一定會(huì)在成功翻譯中使用。

3.3 為什么要使用字符等級(jí)的翻譯?

為什么不使用詞語(yǔ)等級(jí)的翻譯?

詞語(yǔ)等級(jí)的處理中最緊迫的問(wèn)題是，我們沒(méi)有一個(gè)針對(duì)任何語(yǔ)言的、完美的詞語(yǔ)分割算法。一個(gè)完美的詞語(yǔ)分割算法需要能將任何已知的句子分割為一系列的詞素和詞位。然而，這個(gè)問(wèn)題本身是一個(gè)嚴(yán)重的問(wèn)題，經(jīng)常需要幾十年的研究(關(guān)于芬蘭語(yǔ)和其他詞素豐富的語(yǔ)言，參見(jiàn)例如 Creutz 和 Lagus (2005)的研究，關(guān)于中文，參見(jiàn) Huang 和 Zhao (2007)的研究)。因此，許多人選擇使用基于規(guī)則的指令化方法，或者非最優(yōu)的、不過(guò)仍可行的、基于學(xué)習(xí)的分割算法。

這種非最優(yōu)分割的結(jié)果是，詞匯中經(jīng)常充滿許多詞義相近的詞語(yǔ)，分享同一個(gè)詞位但是形態(tài)不同。例如，如果我們將一個(gè)簡(jiǎn)單的指令話腳本應(yīng)用于英文，“run”、“runs”、 “ran” 和 “running”(英文“跑步”的一般式、第三人稱單數(shù)形式、過(guò)去式和現(xiàn)在進(jìn)行式)都是詞匯中多帶帶的條目，盡管它們顯然是共享一個(gè)相同的詞位 “run”。這使得任何機(jī)器翻譯——尤其是神經(jīng)機(jī)器翻譯——都沒(méi)法正確高效地為這些詞形變化的詞語(yǔ)建模。

具體到神經(jīng)機(jī)器翻譯的情況下來(lái)說(shuō)，每一個(gè)詞形變體——“run”、“runs”、“ran” 和 “running”——將會(huì)分配一個(gè) d 維詞語(yǔ)矢量，產(chǎn)生四個(gè)獨(dú)立矢量，雖然如果我們能將那些變體分割為一個(gè)詞位和其他詞素，顯然我們就能更加高效地將其建模。舉個(gè)例子，針對(duì)詞位 “run” 我們可以有一個(gè) d 維矢量，針對(duì) “s” 和 “ing” 可以有一些更小的矢量。這些變體的每一個(gè)之后都會(huì)變成詞位矢量(由這些變體共享)和語(yǔ)素矢量(由帶有相同后綴或其它結(jié)構(gòu)的詞語(yǔ)共享)(Botha 和 Blunsom，2014)。這利用了分布表征，在總體上帶來(lái)更好的抽象化，但好像需要一種最優(yōu)分割，可惜這總是無(wú)法獲得。

除了建模中的低效，使用(未分割的)詞語(yǔ)還有兩個(gè)額外的負(fù)面結(jié)果。首先，翻譯系統(tǒng)不能很好地在新詞上進(jìn)行抽象化，經(jīng)常匹配到一個(gè)預(yù)留給未知詞語(yǔ)的指令上。這實(shí)際在翻譯中忽略了任何詞語(yǔ)的需要融合進(jìn)來(lái)的語(yǔ)義或者結(jié)構(gòu)。第二，即便是一個(gè)詞位很普遍，經(jīng)常在訓(xùn)練體里觀察到，其詞形變體可能不一定。這意味著模型更少地見(jiàn)到這種特定的、罕見(jiàn)的詞形變體，而且將不能好好翻譯。然而，如果這種罕見(jiàn)的變體與其它更常見(jiàn)的詞語(yǔ)共享很大的一部分拼寫(xiě)，我們就希望機(jī)器翻譯系統(tǒng)在翻譯罕見(jiàn)變體時(shí)能利用那些常見(jiàn)詞語(yǔ)。

為什么使用字符等級(jí)的翻譯

從某種程度上，所有這些問(wèn)題都可以通過(guò)直接建模字符來(lái)解決。雖然數(shù)據(jù)稀疏性的問(wèn)題在字符等級(jí)的翻譯中出現(xiàn)，通過(guò)使用一個(gè)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的參數(shù)方法(而非一個(gè)基于字?jǐn)?shù)的非參數(shù)方法)就可以優(yōu)雅地解決。而且，最近幾年，我們已經(jīng)了解如何打造和訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)，來(lái)通過(guò)使用更復(fù)雜的激活函數(shù)，例如長(zhǎng)短期記憶(LSTM)單元(Hochreiter 和 Schmidhuber，1997)和門(mén)限循環(huán)單元(Cho 等人, 2014)，來(lái)良好抓取長(zhǎng)期依存性。

Kim 等人(2015)和 Ling 等人(2015a)最近證明了，通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)將字符序列轉(zhuǎn)化為詞語(yǔ)矢量，我們可以避免很多詞形變量作為詞匯中的多帶帶實(shí)體出現(xiàn)。這之所以成為可能，是通過(guò)在所有獨(dú)特指令之間分享“字符到詞語(yǔ)”神經(jīng)網(wǎng)絡(luò)。一個(gè)類似的方法由 Ling 等人(2015b)應(yīng)用在機(jī)器翻譯中。

然而，這些最近的方法仍依賴獲得一個(gè)好的(如果不是最優(yōu)的)分割算法。Ling 等人(2015b) 的確說(shuō)：“很多關(guān)于詞形學(xué)、同源詞和罕見(jiàn)詞翻譯等等等先前信息應(yīng)該被融合進(jìn)來(lái)。”

然而，如果我們直接在未分割的字符序列上使用一個(gè)神經(jīng)網(wǎng)絡(luò)——無(wú)論是循環(huán)的、卷積的或者它們的組合——就沒(méi)有必要考慮這些先前信息了。使用未分割字符序列的可能性已經(jīng)在深度學(xué)習(xí)領(lǐng)域中研究了很多年。例如，Mikolov 等人(2012)和 Sutskever 等人2011)在字符序列上訓(xùn)練了一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(RNN-LM)。后者證明了，只通過(guò)從這個(gè)模型中一次取樣一個(gè)字符就可以生成合理的文本序列。最近，Zhang 等人(2015) 及 Xiao 和 Cho (2016)成功地對(duì)字符等級(jí)文檔分別應(yīng)用了一個(gè)卷積網(wǎng)絡(luò)和一個(gè)卷積-循環(huán)網(wǎng)絡(luò)，并且未使用任何顯性分割。Gillick 等人 (2015) 進(jìn)一步證明了可以在 unicode 字節(jié)(而非在字符或詞語(yǔ)上)訓(xùn)練一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)，來(lái)進(jìn)行部分語(yǔ)音自動(dòng)標(biāo)注以及命名實(shí)體識(shí)別。

這些早先研究讓我們看到了在機(jī)器翻譯任務(wù)中應(yīng)用神經(jīng)網(wǎng)絡(luò)的可能性，這經(jīng)常被認(rèn)為比文件分類和語(yǔ)言建模更加困難。

3.4 挑戰(zhàn)與問(wèn)題

針對(duì)源語(yǔ)言方和目標(biāo)語(yǔ)言方，有兩組相互重疊的挑戰(zhàn)。在源語(yǔ)言方，我們還未知如何打造一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)拼寫(xiě)和句子語(yǔ)義之間的高度非線性匹配。

在目標(biāo)語(yǔ)言方有兩項(xiàng)挑戰(zhàn)。第一項(xiàng)挑戰(zhàn)是和源語(yǔ)言方相同，因?yàn)榻獯a器神經(jīng)網(wǎng)絡(luò)需要總結(jié)翻譯的內(nèi)容。此外，目標(biāo)語(yǔ)言方的字符等級(jí)建模更加具有挑戰(zhàn)性，因?yàn)榻獯a器網(wǎng)絡(luò)必須得能生成長(zhǎng)的、連貫的字符序列。這是一個(gè)大挑戰(zhàn)，因?yàn)闋顟B(tài)空間的大小會(huì)由于符號(hào)的數(shù)量而指數(shù)增長(zhǎng)，而在字符的情況下，經(jīng)常有300-1000個(gè)符號(hào)那么長(zhǎng)。

所有這些挑戰(zhàn)首先都應(yīng)該描述為問(wèn)題;目前的循環(huán)神經(jīng)網(wǎng)絡(luò)——在神經(jīng)機(jī)器翻譯中已經(jīng)廣泛使用——能否解決這些問(wèn)題。這篇論文中，我們的目標(biāo)是實(shí)證性地回答這些問(wèn)題，并集中考慮目標(biāo)方的挑戰(zhàn)(由于目標(biāo)方兩項(xiàng)挑戰(zhàn)都會(huì)顯示)。

圖1: 雙度量循環(huán)神經(jīng)網(wǎng)絡(luò)。

4、字符等級(jí)翻譯

這篇論文中，我們?cè)噲D通過(guò)在目標(biāo)方(解碼器)測(cè)試兩種不同類型的循環(huán)神經(jīng)網(wǎng)絡(luò)，回答早前提出的問(wèn)題。

首先，我們用門(mén)限循環(huán)單元(GRU)測(cè)試一個(gè)現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)。我們將這個(gè)解碼器稱為基準(zhǔn)解碼器。

第二步，我們?cè)?Chung 等人(2015)的門(mén)限反饋網(wǎng)絡(luò)的啟發(fā)之下，打造一個(gè)新的雙層循環(huán)神經(jīng)網(wǎng)絡(luò)，稱為“雙度量”循環(huán)神經(jīng)網(wǎng)絡(luò)。我們?cè)O(shè)計(jì)這個(gè)網(wǎng)絡(luò)來(lái)輔助抓取兩種時(shí)間量程，初衷是由于字符和詞語(yǔ)可能在兩個(gè)分開(kāi)的時(shí)間量程上運(yùn)行。

我們選擇測(cè)試這兩種選項(xiàng)是為了以下這兩種目的。使用基準(zhǔn)解碼器的實(shí)驗(yàn)會(huì)明確地回答這一問(wèn)題：現(xiàn)有神經(jīng)網(wǎng)絡(luò)是否能夠處理字符等級(jí)的解碼。這一問(wèn)題在機(jī)器翻譯的領(lǐng)域內(nèi)還沒(méi)有良好解答過(guò)。另一個(gè)選項(xiàng)——雙度量解碼器——也經(jīng)過(guò)測(cè)試，為了了解如果第一個(gè)問(wèn)題的答案是肯定的，那么有沒(méi)有可能設(shè)計(jì)一個(gè)更好的解碼器。

4.1 雙度量循環(huán)神經(jīng)網(wǎng)絡(luò)

在這個(gè)提出的雙度量循環(huán)神經(jīng)網(wǎng)絡(luò)中有兩組隱藏單元，h1 和 h2。它們包含同樣數(shù)量的單元，即: dim (h1) = dim (h2)。第一組 h1 使用一個(gè)快速變化的時(shí)間度量(因而是一個(gè)更快的層)，h2 使用更慢的時(shí)間度量(因而是一個(gè)更慢的層)。針對(duì)每一個(gè)隱藏單元，都有一個(gè)相關(guān)的門(mén)限單元，我們分別稱為 g1 和 g2。接下來(lái)的描述中，我們?yōu)橹暗哪繕?biāo)符號(hào)和情景矢量分別使用 yt’-1 和 ct’ (見(jiàn)方程(2))。

讓我們先從更快的層開(kāi)始。更快的層輸出兩組激活，一個(gè)標(biāo)準(zhǔn)輸出

及其門(mén)限版本

快速層的激活是由以下方程計(jì)算而出：

其中

和

分別是快速層和慢速層的門(mén)限激活。這些門(mén)限激活由以下方程計(jì)算而出：

換句話說(shuō)，快速層的激活是基于之前時(shí)間步中，快速層和慢速層的適應(yīng)性結(jié)合。當(dāng)快速層任務(wù)需要重啟，即

下一個(gè)激活將更多地由慢速層的激活而決定。

快速層的門(mén)限單元由以下方程計(jì)算而出：

其中 σ 是一個(gè) sigmoid 函數(shù)。

慢速層還輸出兩組激活，一個(gè)常規(guī)輸出

及其門(mén)限版本

這些激活是由以下方程計(jì)算而出：

其中

是一個(gè)候選激活。慢速層的門(mén)限單元是由以下方程計(jì)算而出：

這項(xiàng)適應(yīng)性融合是基于從快速層而來(lái)的門(mén)限單元，其結(jié)果是，慢速層只有當(dāng)快速層重啟時(shí)才更新其激活。這設(shè)置了一種軟限制，通過(guò)防止慢速層在快速層處理一個(gè)當(dāng)前部分時(shí)進(jìn)行更新，使得快速層運(yùn)行速率更快。

然后，候選激活由以下方程計(jì)算而出：

圖2:(左)關(guān)于源句子長(zhǎng)度在 En-Cs 上的 BLEU 分。(右)子字等級(jí)解碼器和字符等級(jí)基準(zhǔn)或雙度量解碼器之間的詞語(yǔ)負(fù)面對(duì)數(shù)概率差異。

意味著之前時(shí)間步的重啟，與在快速層中發(fā)生的相似，

是情景中而來(lái)的輸入。

根據(jù)方程(5)中的

，

只有當(dāng)快速層已經(jīng)完成處理目前部分、將要開(kāi)始重啟的時(shí)候，快速層才會(huì)影響到慢速層。換句話說(shuō)，慢速層不會(huì)從快速層收到任何輸入，直到快速層已經(jīng)完成處理目前部分，因而比快速層的運(yùn)行速率更慢。

在每一個(gè)時(shí)間步，所提出的雙度量循環(huán)神經(jīng)網(wǎng)絡(luò)的最終輸出，是快速層和慢速層輸出矢量的結(jié)合，即：[h1; h2]。這個(gè)結(jié)合矢量用來(lái)計(jì)算所有符號(hào)在詞匯中的分布概率，正如方程(4)。詳見(jiàn)圖1。

5、實(shí)驗(yàn)設(shè)定

為了評(píng)估，我們將一個(gè)源句子表征為一系列子字符號(hào)序列，用字節(jié)對(duì)編碼(BPE，Sennrich 等(2015))抽取而來(lái)，并將目標(biāo)句子編碼為一系列基于 BPE 的符號(hào)序列或者一個(gè)字符序列。

主體和預(yù)處理

我們使用 WMT’ 15 的四個(gè)語(yǔ)言對(duì)——En-Cs、En-De、En-Ru 和 En-Fi——中所有可用的平行主體。它們分別由 12.1 M、4.5 M、2.3 M 和 2 M 句子對(duì)構(gòu)成。我們我們將每一個(gè)主體指令化，使用一個(gè)包含在 Moses 中的指令化腳本。當(dāng)源語(yǔ)言方長(zhǎng)達(dá) 50 個(gè)子字，并且目標(biāo)方長(zhǎng)達(dá) 100 個(gè)子字標(biāo)識(shí)或者 500 個(gè)字符時(shí)，我們只使用句子對(duì)。我們不使用任何單一語(yǔ)言主體。

表格1: 單一模型及組合的子字等級(jí)、字符等級(jí)技術(shù)和字符等級(jí)雙量級(jí)解碼器的 BLEU 分。每一個(gè)語(yǔ)言對(duì)的單一模型的較佳分?jǐn)?shù)以黑體標(biāo)記，而組合中的較佳分?jǐn)?shù)以下劃線標(biāo)記。當(dāng)可獲得時(shí)，我們返回平均值、較高值和較低值，分別作為下標(biāo)文字和上標(biāo)文字。

針對(duì)除 En-Fi 之外的所有對(duì)，我們使用 newstest-2013 作為發(fā)展測(cè)試，并使用 newstests-2014 (Test 1) 和 newstests-2015 (Test 2) 作為測(cè)試組。針對(duì) En-Fi, 我們使用 newsdev-2015 和 newstest-2015 分別作為發(fā)展組和測(cè)試組。

模型和訓(xùn)練

我們測(cè)試三個(gè)模型設(shè)定：(1)BPE → BPE，(2)BPE → Char (基準(zhǔn))和(3)BPE → Char (雙度量)。后兩項(xiàng)的不同點(diǎn)是我們使用的循環(huán)神經(jīng)網(wǎng)絡(luò)類型不同。我們?cè)谒性O(shè)定中都使用了 GRU 作為編碼器。我們?cè)谇皟蓚€(gè)設(shè)定(1)和(2)中使用 GRU 作為解碼器，而在最后一個(gè)設(shè)定(3)中使用了提出的雙度量循環(huán)網(wǎng)絡(luò)。針對(duì)每一個(gè)方向(前饋和反向)，編碼器具有 512 個(gè)隱藏單元，解碼器有 1024 個(gè)隱藏單元。

我們使用帶有 Adam 的隨機(jī)梯度下降來(lái)訓(xùn)練每一個(gè)模型(Kingma 和 Ba，2014)。每一個(gè)更新都是使用由 128 個(gè)句子對(duì)組成的迷你批次來(lái)計(jì)算。梯度的常規(guī)是使用閾值 1 來(lái)剪切(Pascanu 等，2013)。

解碼和評(píng)估

我們使用集束搜索來(lái)近似尋找特定源句子的最可能的翻譯。集束寬對(duì)子字等級(jí)和字符等級(jí)解碼器分別是 5 和 15。選擇它們是基于發(fā)展組的翻譯質(zhì)量。翻譯使用 BLEU 進(jìn)行評(píng)估。

多層解碼器和軟對(duì)齊機(jī)制

當(dāng)解碼器是一個(gè)多層循環(huán)神經(jīng)網(wǎng)絡(luò)(包括一個(gè)堆積網(wǎng)絡(luò)，以及提出的雙度量網(wǎng)絡(luò))，針對(duì) L 層，解碼器一次輸出多個(gè)隱藏矢量 {h1, …，hL｝。這使得軟對(duì)齊機(jī)制(方程(3)中的 fscore)中可以有一個(gè)額外的自由度。我們使用其它選項(xiàng)來(lái)進(jìn)行評(píng)估，包括(1)只使用 hL (慢速層)和(2)使用所有(結(jié)合)。

組合

我們還評(píng)估了神經(jīng)機(jī)器翻譯模型的組合，在所有四組語(yǔ)言對(duì)上，將其與較先進(jìn)的基于詞組翻譯系統(tǒng)進(jìn)行比較。我們?nèi)∶恳徊捷敵龈怕蚀笃骄担瑥亩鴱哪骋粋€(gè)組合中解碼。

圖3：使用 BPE → Char (雙度量)模型，En-De 中測(cè)試?yán)拥膶?duì)齊矩陣。

6、定量分析

用于對(duì)齊的慢速層

在 En-De 上，我們測(cè)試應(yīng)該使用哪一層解碼器來(lái)計(jì)算軟對(duì)齊。在子字等級(jí)解碼器的情況下，我們沒(méi)有觀察到選擇解碼器的兩層與使用所有層的結(jié)合(表格1(a-b))有什么不同。另一方面，有了字符等級(jí)的解碼器，我們注意到，當(dāng)針對(duì)軟對(duì)齊機(jī)制(表格1(c-g))只使用慢速層(h2)的時(shí)候，表現(xiàn)會(huì)有提升。這意味著，在目標(biāo)中將更大的部分與源一方的子字單元對(duì)齊，會(huì)給軟對(duì)齊機(jī)制帶來(lái)益處，我們對(duì)所有其它語(yǔ)言對(duì)都只使用慢速層。

單一模型

在表格1中，我們呈現(xiàn)了一個(gè)關(guān)于所有語(yǔ)言對(duì)的翻譯質(zhì)量的綜合報(bào)告，包括了(1)子字等級(jí)解碼器、(2)字符等級(jí)基準(zhǔn)解碼器和(3)字符等級(jí)雙度量解碼器。我們可以看見(jiàn)，針對(duì) En-Cs 和 En-Fi，兩種字符等級(jí)解碼器都比較明顯地優(yōu)于子字等級(jí)解碼器。在 En-De 上，字符等級(jí)基準(zhǔn)解碼器比子字等級(jí)解碼器和字符等級(jí)雙度量解碼器都更好，證實(shí)了字符等級(jí)建模的有效性。在 En-Ru 上，在單一模型中，字符等級(jí)解碼器優(yōu)于子字等級(jí)解碼器，但是，我們觀察到所有三種選項(xiàng)之間就總體來(lái)說(shuō)都比較均等。

這些結(jié)果顯然驗(yàn)證了這一點(diǎn)：不使用顯性的分割而進(jìn)行字符等級(jí)的翻譯，的確是有可能的。實(shí)際上，我們觀察到字符等級(jí)的翻譯質(zhì)量經(jīng)常超過(guò)詞語(yǔ)等級(jí)的翻譯。當(dāng)然，我們又一次提到我們的實(shí)驗(yàn)有限制，解碼器只使用未分割字符序列，未來(lái)還需要研究用一個(gè)未分割的字符序列來(lái)代替源句子。

組合

每一個(gè)組合都是使用8個(gè)獨(dú)立模型打造的。我們得出的第一個(gè)觀察結(jié)論是，在所有的語(yǔ)言對(duì)中，神經(jīng)機(jī)器翻譯與較先進(jìn)的非神經(jīng)翻譯系統(tǒng)表現(xiàn)相當(dāng)，或者經(jīng)常更好。而且，字符等級(jí)的解碼器在所有情況中都優(yōu)于子字等級(jí)的解碼器。

7 定性分析

(1)字符等級(jí)的解碼器能否生成長(zhǎng)的、連貫的句子?

字符翻譯比詞語(yǔ)翻譯要長(zhǎng)得多，可能使得循環(huán)神經(jīng)網(wǎng)絡(luò)以字符生成連貫句子變得更難。這種想法證明是錯(cuò)誤的。就像在圖2(左)中，子字等級(jí)和字符等級(jí)的解碼器之間沒(méi)有什么明顯不同，雖然生成翻譯的長(zhǎng)度總體來(lái)說(shuō)在字符里會(huì)長(zhǎng)5-10倍。

(2)字符等級(jí)的解碼器對(duì)罕見(jiàn)詞語(yǔ)有幫助嗎?

基于字符建模的其中的一個(gè)好處是，可以將任何字符序列建模，因此能更好地對(duì)罕見(jiàn)的詞形變體進(jìn)行建模。我們實(shí)證性地證實(shí)了這一點(diǎn)，通過(guò)觀察子字等級(jí)和字符等級(jí)解碼器的平均負(fù)對(duì)數(shù)概率，隨著詞語(yǔ)頻率下降，兩者之間的差距也越來(lái)越大。這展示在圖2(右)，解釋了我們實(shí)驗(yàn)中字符等級(jí)解碼成功背后的一個(gè)原因(我們定義 diff (x, y) = x - y)。

(3)字符等級(jí)解碼器能否在原詞語(yǔ)和目標(biāo)字符之間軟對(duì)齊?

在圖3(左)中，我們展示了一個(gè)源句子軟對(duì)齊的例子，“Two sets of light so close to one another” (兩組互相非常接近的燈光)。很明顯，字符等級(jí)的翻譯模型良好抓取了源子字和目標(biāo)字符之間的對(duì)齊。我們觀察到，字符等級(jí)解碼器在生成一個(gè)德語(yǔ)復(fù)合詞 “Lichtersets”(燈的組合)時(shí)，正確對(duì)齊到了“l(fā)ights”(燈)和“sets of”(組合)(放大版本詳見(jiàn)圖3(右))。這種行為在英語(yǔ)單詞“one another”和德語(yǔ)單詞“einaner” (編者注：都是“互相”的意思)也類似地出現(xiàn)了，這不意味著在原詞語(yǔ)和目標(biāo)字符之間存在對(duì)齊。相反，這意味著字符等級(jí)解碼器的內(nèi)在狀態(tài)——基準(zhǔn)或者雙度量 ——良好抓取了字符有意義的部分，讓模型可以將其匹配到源句子中更大的部分(子字)中去。

(4)字符等級(jí)解碼器的解碼速度有多快?

我們?cè)?newstest - 2013 主體(En-De) 上，用一個(gè)單一的 Titan X GPU 評(píng)估了子字等級(jí)基準(zhǔn)的解碼速度、字符等級(jí)基準(zhǔn)和字符等級(jí)雙度量解碼器。子字等級(jí)基準(zhǔn)解碼器每秒生產(chǎn) 31.9 個(gè)詞，字符等級(jí)基準(zhǔn)解碼器和字符等級(jí)雙度量解碼器每秒分別生成 27.5 個(gè)單詞和 25.6 個(gè)單詞。注意，這是在一個(gè)在線設(shè)定中評(píng)估的，其中我們進(jìn)行連續(xù)翻譯，同一時(shí)間只翻譯一句話。在批量設(shè)定中進(jìn)行翻譯，可能與這些結(jié)果不同。

8. 結(jié)論

在這篇論文中，我們研究一個(gè)基本問(wèn)題，也就是一個(gè)最近提出的神經(jīng)機(jī)器翻譯系統(tǒng)是否能直接在字符等級(jí)處理翻譯，不需要任何詞語(yǔ)分割。我們集中在目標(biāo)方，其中一個(gè)解碼器需要一次生成一個(gè)字符，同時(shí)在目標(biāo)字符和源子字之間進(jìn)行軟對(duì)齊。我們大量的實(shí)驗(yàn)利用了四個(gè)語(yǔ)言對(duì)——En-Cs、En-De、En-Ru 和 En-Fi——強(qiáng)有力證明了字符等級(jí)的神經(jīng)機(jī)器翻譯是可能的，并且實(shí)際上會(huì)從中獲益。

我們的結(jié)果有一個(gè)局限：我們?cè)谠捶绞褂米幼址?hào)。然而，這讓我們可以獲得更加細(xì)微的分析，但是在未來(lái)必須調(diào)查另一種設(shè)定，其中源一方也表征為字符序列。

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754