摘要:第二次卷積也是,數目為。兩次卷積后得到的和的相同,更新,進行上述循環,循環自定義次數,進入解碼部分。所以需要進行一次。多次更新將最新的,輸入到單層神經網絡中,輸出層維度為譯文有效單詞總數更新備注借鑒出處
一.從InputEmbedding和PositionalEnocding說起
1.將原文的所有單詞匯總統計頻率,刪除低頻詞匯(比如出現次數小于20次的統一
定義為’
2.這樣,我們針對InputEmbedding,每句話就是一個對應的矩陣,該矩陣指定長度,例如‘中國人有中國夢’,對應矩陣!(這里定義矩陣行數為10,100可以理解為結束符,不足的在后面補0)圖片描述
3.PositionEncoding
這里的PositionEncoding主要是為了保留句子的位置信息。其矩陣shape和Inputembedding一樣。對于矩陣matPosition的每一行,第0,2,4,6,...等偶數列上的值用sin()函數激 活,第1,3,5,。。。等奇數列的值用cos()函數激活,將此矩陣定義為mapX。
4.這里,將兩個矩陣相加,得到matEnc=matP+matX。然后matEnc進入模型編碼部分的循環,即Figure1中左邊紅色框內部分,每個循環單元又分為4個小部分:multi-head attention, add&norm, feedForward, add&norm;
二.Encoder
1.Multi-head attention
(1)由三個輸入,分別為V,K,Q,此處V=K=Q=matEnc(后面會經過變化變的不一樣)
(2)首先分別對V,K,Q三者分別進行線性變換,即將三者分別輸入到三個單層神經網絡層,激活函數選擇relu,輸出新的V,K,Q(三者shape都和原來shape相同,即經過線性變換時輸出維度和輸入維度相同);
(3)然后將Q在最后一維上進行切分為num_heads(假設為8,必須可以被matENC整除)段,然后對切分完的矩陣在axis=0維上進行concat鏈接起來;對V和K都進行和Q一樣的操作;操作后的矩陣記為Q_,K_,V_;如圖
(4)之后將Q_,K_.T進行想乘和Scale,得到的output為[8.10,10],執行output = softmax(output),然后將更新后的output想乘V_,得到再次更新后的output矩陣[8,10,64],然后將得到的output在0維上切分為8段,在2維上合并為[10,512]原始shape樣式。
2.add&norm
add實際上是為了避免梯度消失,也就是曾經的殘差網絡解決辦法:output=output+Q;
norm是標準化矯正一次,在output對最后一維計算均值和方差,用output減去均值除以方差+spsilon得值更新為output,然后變量gamma*output+變量beta
3.feed forward
(1)對output進行兩次卷積,第一次卷積荷11,數目為詞對應向量的維度。第二次卷積也是11,數目為N。
(2)兩次卷積后得到的output和matEnc 的shape相同,更新matEnc = output,進行上述循環,循環自定義次數,進入解碼部分。
三.decoder
1.InputEmbedding和Positionembedding相同。
2.進入解碼循環,這里的Masked multi-head attention: 和編碼部分的multi-head attention類似,但是多了一 次masked,因為在解碼部分,解碼的時候時從左到右依次解碼的,當解出第一個字的時候,第一個字只能與第一個字計算相關性,當解出第二個字的時候,只能計算出第二個字與第一個字和第二個字的相關性,。。。;所以需要linalg.LinearOperatorLowerTriangular進行一次mask。
3.在解碼中,add&norm,Feed forward和編碼相同,其中multi-head attention:同編碼部分,但是Q和K,V不再相同,Q=outputs,K=V=matEnc。
4.多次更新
5.Linear: 將最新的outputs,輸入到單層神經網絡中,輸出層維度為“譯文”有效單詞總數;更新outputs
備注:借鑒出處https://zhuanlan.zhihu.com/p/...
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/45043.html
摘要:在這項工作中,我們提出了自注意力生成對抗網絡,它將自注意力機制引入到卷積中。越高,表示圖像質量越好。表將所提出的與較先進模型進行比較,任務是上的類別條件圖像生成。 圖像合成(Image synthesis)是計算機視覺中的一個重要問題。隨著生成對抗網絡(GAN)的出現,這個方向取得了顯著進展。基于深度卷積網絡的GAN尤其成功。但是,通過仔細檢查這些模型生成的樣本,可以觀察到,在ImageNe...
閱讀 1361·2021-11-24 09:39
閱讀 1354·2021-11-04 16:12
閱讀 2697·2021-09-24 09:47
閱讀 3343·2021-09-01 10:50
閱讀 1482·2019-08-30 15:55
閱讀 1429·2019-08-30 15:43
閱讀 650·2019-08-30 11:08
閱讀 3587·2019-08-23 18:33