国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

Transformer-XL: Unleashing the Potential of Attent

dingding199389 / 2914人閱讀

摘要:序列截?cái)嗪螅斐啥温溥吔缙扑椋瑥亩斐傻托?yōu)化,即使是短序列這也是嚴(yán)重問(wèn)題。此外,這種重復(fù)機(jī)制還解決了上下文碎片問(wèn)題。

簡(jiǎn)介

現(xiàn)實(shí)遠(yuǎn)程依賴(lài)問(wèn)題,比如要正確理解文章內(nèi)容,有時(shí)需要閱讀多處段落,這對(duì)人來(lái)說(shuō)輕松自如。但是,對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),遠(yuǎn)程依賴(lài)問(wèn)題依然是一個(gè)挑戰(zhàn)。雖然基于門(mén)控的RNN(LSTM,GRU等)和梯度裁剪等技術(shù)提高了對(duì)遠(yuǎn)程依賴(lài)建模的能力,但仍不足以解決問(wèn)題。
其中一個(gè)解決方法就是使用TransformersTransformers允許數(shù)據(jù)單元直接連接,可以更好的捕獲遠(yuǎn)距離的數(shù)據(jù)關(guān)系。但是,在語(yǔ)音模型中,Transformers一般使用固定長(zhǎng)度context實(shí)現(xiàn),即:把文本序列截?cái)酁閹讉€(gè)固定長(zhǎng)度的序列,然后分別多帶帶處理。

這存在兩個(gè)問(wèn)題:

無(wú)法計(jì)算超過(guò)固定長(zhǎng)度的依賴(lài)關(guān)系。

序列截?cái)嗪螅斐啥温溥吔缙扑椋瑥亩斐傻托?yōu)化,即使是短序列這也是嚴(yán)重問(wèn)題。

為了解決這些問(wèn)題,可以嘗試使用Transformers-XL模型。Transformers-XL由兩種技術(shù)構(gòu)成:Segment-level RecurrenceRelative Positional Encodings。

Segment-level Recurrence

在訓(xùn)練期間,當(dāng)模型處理下一個(gè)新段落時(shí),將前一個(gè)段落的計(jì)算表示固定并且緩存以作為重用擴(kuò)展上下文。此附加連接將最大可能的將依賴(lài)性長(zhǎng)度增加N倍,其中N是網(wǎng)絡(luò)的深度,因?yàn)樯舷挛男畔F(xiàn)在能夠跨越段落邊界流動(dòng)。此外,這種重復(fù)機(jī)制還解決了上下文碎片問(wèn)題。

Relative Positional Encodings

在標(biāo)準(zhǔn)的Transformer中,序列順序的信息,都是由一組位置編碼提供,每一個(gè)位置都有絕對(duì)的位置信息。但將這個(gè)邏輯應(yīng)用到重用機(jī)制中時(shí),會(huì)導(dǎo)致性能損失。這個(gè)問(wèn)題的解決思路是,對(duì)隱藏狀態(tài)中的相對(duì)位置信息進(jìn)行編碼。從概念上講,位置編碼為模型提供了關(guān)于應(yīng)如何收集信息的時(shí)間線(xiàn)索,即應(yīng)該在哪里介入處理。以相對(duì)的方式定義時(shí)間線(xiàn)索,將相同的信息注入每層的注意分?jǐn)?shù),更加直觀(guān),也更通用。基于這個(gè)思路,可以創(chuàng)建一組相對(duì)位置編碼,使得重用機(jī)制變得可行,也不會(huì)丟失任何的時(shí)間信息。將相對(duì)位置嵌入Transformer之中,并配合重用機(jī)制,就得到了Transformer-XL的架構(gòu)。基于這些改進(jìn),Transformer-XL在相關(guān)的數(shù)據(jù)集上都取得了很好的成績(jī)。論文中表示,這是第一個(gè)在字符級(jí)和單詞級(jí)建模方面比RNN結(jié)果更好的自注意力模型。

總結(jié)

Transformer-XL 在幾種不同的數(shù)據(jù)集(大 / 小,字符級(jí)別 / 單詞級(jí)別等)均實(shí)現(xiàn)了最先進(jìn)的語(yǔ)言建模結(jié)果。它結(jié)合了深度學(xué)習(xí)的兩個(gè)重要概念——循環(huán)機(jī)制和注意力機(jī)制,允許模型學(xué)習(xí)長(zhǎng)期依賴(lài)性,且可能可以擴(kuò)展到需要該能力的其他深度學(xué)習(xí)領(lǐng)域,例如音頻分析(如每秒 16k 樣本的語(yǔ)音數(shù)據(jù))等。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/19937.html

相關(guān)文章

  • Python-Socket-Programming(1)

    摘要: Abstract Sockets are used nearly everywhere, but are one of the most severely misunderstood technologies around. This is a 10,000 foot overview of sockets. It’s not really a tutorial - you’ll s...

    animabear 評(píng)論0 收藏0
  • 企業(yè)對(duì)敏捷、數(shù)據(jù)的需求

    摘要:企業(yè)對(duì)敏捷以數(shù)據(jù)為中心的架構(gòu)的需求根據(jù)拉丁美洲國(guó)家統(tǒng)計(jì)局的數(shù)據(jù),下一波大數(shù)據(jù)和分析浪潮中,增強(qiáng)分析持續(xù)智能和可解釋的人工智能是未來(lái)三到五年內(nèi)具有重大破壞潛力的大數(shù)據(jù)和分析的主要趨勢(shì)之一。企業(yè)對(duì)敏捷、以數(shù)據(jù)為中心的架構(gòu)的需求:根據(jù)拉丁美洲國(guó)家統(tǒng)計(jì)局的數(shù)據(jù),下一波大數(shù)據(jù)和分析浪潮中,增強(qiáng)分析、持續(xù)智能和可解釋的人工智能(AI)是未來(lái)三到五年內(nèi)具有重大破壞潛力的大數(shù)據(jù)和分析的主要趨勢(shì)之一。Gart...

    Nekron 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

dingding199389

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<