摘要:為了使的思想更具體化,現(xiàn)在我們來看一下在深度神經(jīng)網(wǎng)絡(luò)中執(zhí)行多任務(wù)學(xué)習(xí)的兩種最常用的方法。圖深度神經(jīng)網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)的參數(shù)共享共享參數(shù)大大降低了過擬合的風(fēng)險(xiǎn)。
目錄
1.介紹
2.動機(jī)
3.兩種深度學(xué)習(xí) MTL 方法
Hard 參數(shù)共享
Soft 參數(shù)共享
4.為什么 MTL 有效
隱式數(shù)據(jù)增加
注意力機(jī)制
竊聽
表征偏置
正則化
5.非神經(jīng)模型中的 MTL
塊稀疏正則化
學(xué)習(xí)任務(wù)的關(guān)系
6.最近 MTL 的深度學(xué)習(xí)研究
深度關(guān)系網(wǎng)絡(luò)
全自適應(yīng)特征共享
十字繡網(wǎng)絡(luò)
低監(jiān)督
聯(lián)合多任務(wù)模型
權(quán)重?fù)p失與不確定性
MTL 的張量因子分解
水閘網(wǎng)絡(luò)
我應(yīng)該在模型中共享什么
7.輔助任務(wù)
相關(guān)任務(wù)
對抗性
提示
注意力機(jī)制
量子平滑
預(yù)測輸入
使用未來預(yù)測現(xiàn)在
表征學(xué)習(xí)
哪些輔助任務(wù)有幫助?
8.結(jié)論
介紹
在機(jī)器學(xué)習(xí)(ML)中,通常的關(guān)注點(diǎn)是對特定度量進(jìn)行優(yōu)化,度量有很多種,例如特定基準(zhǔn)或商業(yè) KPI 的分?jǐn)?shù)。為了做到這一點(diǎn),我們通常訓(xùn)練一個(gè)模型或模型組合來執(zhí)行目標(biāo)任務(wù)。然后,我們微調(diào)這些模型,直到模型的結(jié)果不能繼續(xù)優(yōu)化。雖然通常可以通過這種方式使模型達(dá)到可接受的性能,但是由于我們的關(guān)注點(diǎn)集中在單個(gè)任務(wù)上,我們忽略了可能幫助優(yōu)化度量指標(biāo)的其它信息。具體來說,這些信息來自相關(guān)任務(wù)的訓(xùn)練信號。通過共享相關(guān)任務(wù)之間的表征,可以使我們的模型更好地概括原始任務(wù)。這種方法被稱為多任務(wù)學(xué)習(xí)(MTL),這正是本文的主題。
MTL 有很多形式:聯(lián)合學(xué)習(xí)(joint learning)、自主學(xué)習(xí)(learning to learn)和帶有輔助任務(wù)的學(xué)習(xí)(learning with auxiliary task)等都可以指 MTL。一般來說,優(yōu)化多個(gè)損失函數(shù)就等同于進(jìn)行多任務(wù)學(xué)習(xí)(與單任務(wù)學(xué)習(xí)相反)。這些情況有助于你明確地思考如何在 MTL 方面做嘗試并從中獲得啟發(fā)。
即使只優(yōu)化一個(gè)損失函數(shù)(如在典型情況下),也有可能借助輔助任務(wù)來改善原任務(wù)模型。Rich Caruana [1] 簡要總結(jié)了 MTL 的目標(biāo):「MTL 通過利用包含在相關(guān)任務(wù)訓(xùn)練信號中的特定領(lǐng)域的信息來改進(jìn)泛化能力」。
在本文中,我將嘗試概括一下多任務(wù)學(xué)習(xí)的現(xiàn)狀,特別是當(dāng)涉及到具有深度神經(jīng)網(wǎng)絡(luò)的 MTL 時(shí)。我將首先從不同的角度闡述 MTL 的動機(jī)。然后,我將介紹 MTL 在深度學(xué)習(xí)中最常用的兩種方法。隨后,我將描述 MTL 的機(jī)制,并闡述為什么 MTL 在實(shí)踐中效果良好。在研究更先進(jìn)的基于神經(jīng)網(wǎng)絡(luò)的 MTL 方法之前,我將通過討論 MTL 的文獻(xiàn)來提供一些背景。然后,我將介紹一些最近提出的更強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò) MTL 方法。最后,我將討論常用的輔助任務(wù)類型,并討論什么是一個(gè)好的 MTL 輔助任務(wù)。
動機(jī)
多任務(wù)學(xué)習(xí)的動機(jī)有不同的方式:從生物學(xué)的角度,多任務(wù)學(xué)習(xí)可以看作是受到人類學(xué)習(xí)的啟發(fā)。對于學(xué)習(xí)新任務(wù),我們經(jīng)常應(yīng)用通過學(xué)習(xí)相關(guān)任務(wù)獲得的知識。例如,寶寶首先學(xué)會識別面部,然后可以應(yīng)用這些知識來識別其它對象。
從教學(xué)的角度,我們經(jīng)常通過學(xué)習(xí)任務(wù)來獲得必要的技能,以便掌握更復(fù)雜的技術(shù)。學(xué)習(xí)武術(shù)(比如柔道)的恰當(dāng)方式也適用于學(xué)習(xí)編程。
以流行文化為例,一個(gè)例子是《空手道少年(1984)》(感謝 Margaret Mitchell 與 Adrian Benton 提供靈感)。在電影中,老師宮城先生教導(dǎo)了空手道孩子看起來是無關(guān)緊要的任務(wù),如打地板和給車打蠟。事后看來,這些可以讓他掌握與學(xué)習(xí)空手道相關(guān)的寶貴技巧。
最后,從機(jī)器學(xué)習(xí)的角度:我們可以將多任務(wù)學(xué)習(xí)看作歸納轉(zhuǎn)移的一種形式。歸納傳遞可以通過引入歸納偏置(inductive bias)來幫助改進(jìn)模型,這導(dǎo)致模型比其它模型更喜歡某些假設(shè)。例如,一種常見形式的歸納偏置是 L1 正則化,這導(dǎo)致偏好稀疏解。在 MTL 模型下,歸納偏置由輔助任務(wù)提供,這導(dǎo)致模型更喜歡假設(shè)而不是解釋多個(gè)任務(wù)。正如我們將在下面看到的,這通常會導(dǎo)致更好的一般化解決方案。
兩種深度學(xué)習(xí) MTL 方法
到目前為止,我們只研究了 MTL 的理論動機(jī)。為了使 MTL 的思想更具體化,現(xiàn)在我們來看一下在深度神經(jīng)網(wǎng)絡(luò)中執(zhí)行多任務(wù)學(xué)習(xí)的兩種最常用的方法。在深度學(xué)習(xí)中,多任務(wù)學(xué)習(xí)通常通過隱藏層的 Hard 或 Soft 參數(shù)共享來完成。
Hard 參數(shù)共享
共享 Hard 參數(shù)是神經(jīng)網(wǎng)絡(luò) MTL 最常用的方法,可以追溯到 [2]。在實(shí)際應(yīng)用中,通常通過在所有任務(wù)之間共享隱藏層,同時(shí)保留幾個(gè)特定任務(wù)的輸出層來實(shí)現(xiàn)。
圖 1:深度神經(jīng)網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)的 Hard 參數(shù)共享
共享 Hard 參數(shù)大大降低了過擬合的風(fēng)險(xiǎn)。實(shí)際上,[3] 表明過擬合共享參數(shù)的風(fēng)險(xiǎn)為 O(N)——其中 N 是任務(wù)數(shù)——小于過擬合特定任務(wù)參數(shù),即輸出層。這很直觀:我們同時(shí)學(xué)習(xí)的工作越多,我們的模型找到一個(gè)含有所有任務(wù)的表征就越困難,而過擬合我們原始任務(wù)的可能性就越小。
Soft 參數(shù)共享
另一方面,在共享 Soft 參數(shù)時(shí),每個(gè)任務(wù)都有自己的參數(shù)和模型。模型參數(shù)之間的距離是正則化的,以便鼓勵(lì)參數(shù)相似化。例如使用 L2 距離進(jìn)行正則化 [4],而 [5] 使用跡范數(shù)(trace norm)。
圖 2:深度神經(jīng)網(wǎng)絡(luò)多任務(wù)學(xué)習(xí)的 Soft 參數(shù)共享
約束深度神經(jīng)網(wǎng)絡(luò) Soft 參數(shù)共享的思想受到了 MTL 正則化技術(shù)的極大啟發(fā),這種思想已經(jīng)用于其它模型開發(fā),我們將在下面討論。
為什么 MTL 有效?
即使多任務(wù)學(xué)習(xí)獲得的歸納偏置看起來是可信的,為了更好地了解 MTL,我們?nèi)孕枰U述它所基于的機(jī)制。其中大部分最初都是由 Caruana(1998)提出的。對于所有例子,假設(shè)我們有兩個(gè)相關(guān)的任務(wù) A 和 B,它們依賴于一個(gè)共同的隱藏層表征 F。
隱式數(shù)據(jù)增加
MTL 有效地增加了我們用于訓(xùn)練模型的樣本大小。由于所有任務(wù)不同程度地存在噪聲,當(dāng)在某些任務(wù) A 上訓(xùn)練模型時(shí),我們的目標(biāo)是為任務(wù) A 學(xué)習(xí)一個(gè)很好的表征,理想情況下,這個(gè)表征能忽略與數(shù)據(jù)相關(guān)的噪聲并具有良好的泛化性。由于不同的任務(wù)具有不同的噪聲模式,所以同時(shí)學(xué)習(xí)兩個(gè)任務(wù)的模型能夠?qū)W習(xí)更一般的表征。只學(xué)習(xí)任務(wù) A 有可能過擬合任務(wù) A,而聯(lián)合地學(xué)習(xí) A 和 B 使模型能夠通過平均噪聲模式獲得更好的表征。
注意力機(jī)制
如果一個(gè)任務(wù)非常嘈雜或數(shù)據(jù)量有限并且高維,模型可能難以區(qū)分相關(guān)與不相關(guān)的特征。MTL 可以幫助模型將注意力集中在重要的特征上,因?yàn)槠渌蝿?wù)將為這些特征的相關(guān)性或不相關(guān)性提供額外的證據(jù)。
竊聽(eavesdroping)
某特征 G 很容易被任務(wù) B 學(xué)習(xí),但是難以被另一個(gè)任務(wù) A 學(xué)習(xí)。這可能是因?yàn)?A 以更復(fù)雜的方式與特征進(jìn)行交互,或者因?yàn)槠渌卣髯璧K了模型學(xué)習(xí) G 的能力。通過 MTL,我們可以允許模型「竊聽」,即通過任務(wù) B 學(xué)習(xí) G。最簡單的方法是通過提示(hint)[6],即直接訓(xùn)練模型來預(yù)測最重要的特征。
表征偏置
MTL 任務(wù)偏好其它任務(wù)也偏好的表征,這造成模型偏差。這將有助于模型在將來泛化到新任務(wù),因?yàn)樵谧銐驍?shù)量的訓(xùn)練任務(wù)上表現(xiàn)很好的假設(shè)空間也將很好地用于學(xué)習(xí)具有相同環(huán)境的新任務(wù) [7]。
正則化
最后,MTL 通過引入歸納偏置作為正則化項(xiàng)。因此,它降低了過擬合的風(fēng)險(xiǎn)以及模型的 Rademacher 復(fù)雜度(即適合隨機(jī)噪聲的能力)。
非神經(jīng)模型中的 MTL
為了更好地了解深度神經(jīng)網(wǎng)絡(luò)中的 MTL,我們將研究關(guān)于 MTL 在線性模型、核函數(shù)方法和貝葉斯算法方面的論文。特別地,我們將討論一直以來在多任務(wù)學(xué)習(xí)的歷史中普遍存在的兩個(gè)主要思想:通過范數(shù)正則化制造各任務(wù)間的稀疏性;對任務(wù)間的關(guān)系進(jìn)行建模。
請注意,許多 MTL 的論文具有同構(gòu)性假設(shè):它們假設(shè)所有任務(wù)與單個(gè)輸出相關(guān),例如,多類 MNIST 數(shù)據(jù)集通常被轉(zhuǎn)換為 10 個(gè)二進(jìn)制分類任務(wù)。最近的方法更加接近實(shí)際,對問題進(jìn)行異構(gòu)性假設(shè),即每個(gè)任務(wù)對應(yīng)于一組的輸出。
塊稀疏(block-sparse)正則化
為了更好地與下面的方法銜接,我們首先介紹一些符號。我們有 T 個(gè)任務(wù)。對于每個(gè)任務(wù) t,我們有一個(gè)模型 m_t,其參數(shù) a_t 的維度是 d。我們可以將參數(shù)作為列向量寫出 a_t=[a_{1,t} ... a_{d,t}]^?。我們現(xiàn)在逐列地將這些列向量 a_1, ... ,a_T 進(jìn)行堆疊,形成矩陣 A∈?^{d×T}。A 的第 i 行包含與每個(gè)任務(wù)的模型的第 i 個(gè)特征對應(yīng)的參數(shù) a_{i,.},而 A 的第 j 列包含對應(yīng)于第 j 個(gè)模型的參數(shù) a_{.,j}。
許多現(xiàn)有的方法對模型的參數(shù)做了稀疏性假設(shè)。例如,假設(shè)所有模型共享一小組特征 [8]。對我們?nèi)蝿?wù)的參數(shù)矩陣 A 來說,這意味著除了幾行之外,所有數(shù)據(jù)都是 0,對應(yīng)于所有任務(wù)只共同使用幾個(gè)特性。為了實(shí)現(xiàn)這一點(diǎn),他們將 L1 范數(shù)推廣到 MTL。回想一下,L1 范數(shù)是對參數(shù)之和的約束,這迫使除幾個(gè)參數(shù)之外的所有參數(shù)都為 0。這也被稱為 lasso(最小收縮與選擇算子)。
在單任務(wù)中,L1 范數(shù)根據(jù)相應(yīng)任務(wù) t 的參數(shù)向量 a_t 被計(jì)算,在 MTL 中,我們在任務(wù)參數(shù)矩陣 A 中計(jì)算它。為了做到這一點(diǎn),我們首先對每行 a_i 計(jì)算出包含與第 i 個(gè)特征相對應(yīng)的參數(shù)的 Lq 范數(shù),其產(chǎn)生向量 b=[‖a_1‖_q ...‖a_d‖_q]∈?^d。然后,我們計(jì)算該向量的 L1 范數(shù),這迫使 b(即 A 矩陣的行)中除少數(shù)元素(entry)外,所有元素都為 0。
可以看到,根據(jù)我們希望對每一行的約束,我們可以使用不同的 Lq。一般來說,我們將這些混合范數(shù)約束稱為 L1/Lq 范數(shù),也被稱為塊稀疏正則化,因?yàn)樗鼈儗?dǎo)致 A 的整行被設(shè)置為 0。[9] 使用 L1/L∞ 正則化,而 Argyriou 等人(2007)使用混合的 L1/L2 范數(shù)。后者也被稱為組合 lasso(group lasso),最早由 [10] 提出。
Argyriou 等人(2007)也表明,優(yōu)化非凸組合 lasso 的問題可以通過懲罰 A 的跡范數(shù)(trace norm)來轉(zhuǎn)化成凸問題,這迫使 A 變成低秩(low-rank),從而約束列參數(shù)向量 a_{.,1},...,a_{.,t} 在低維子空間中。[11] 進(jìn)一步使用組合 lasso 在多任務(wù)學(xué)習(xí)中建立上限。
盡管這種塊稀疏正則化直觀上似乎是可信的,但它非常依賴于任務(wù)間共享特征的程度。[12] 顯示,如果特征不重疊太多,則 Ll/Lq 正則化可能實(shí)際上會比元素一般(element-wise)的 L1 正則化更差。
因此,[13] 通過提出一種組合了塊稀疏和元素一般的稀疏(element-wise sparse)正則化的方法來改進(jìn)塊稀疏模型。他們將任務(wù)參數(shù)矩陣 A 分解為兩個(gè)矩陣 B 和 S,其中 A=B+S。然后使用 L1/L∞ 正則化強(qiáng)制 B 為塊稀疏,而使用 lasso 使 S 成為元素一般的稀疏。最近,[14] 提出了組合稀疏正則化的分布式版本。
學(xué)習(xí)任務(wù)的關(guān)系
盡管組合稀疏約束迫使我們的模型僅考慮幾個(gè)特征,但這些特征大部分用于所有任務(wù)。所有之前的方法都基于假設(shè):多任務(wù)學(xué)習(xí)的任務(wù)是緊密相關(guān)的。但是,不可能每個(gè)任務(wù)都與所有任務(wù)緊密相關(guān)。在這些情況下,與無關(guān)任務(wù)共享信息可能會傷害模型的性能,這種現(xiàn)象稱為負(fù)遷移(negative transfer)。
與稀疏性不同,我們希望利用先驗(yàn)信息,指出相關(guān)任務(wù)和不相關(guān)任務(wù)。在這種情況下,一個(gè)能迫使任務(wù)聚類的約束可能更適合。[15] 建議通過懲罰任務(wù)列向量 a_{.,1},...,a_{.,t} 的范數(shù)與它們具有以下約束形式的方差來強(qiáng)加聚類約束:
其中?
為參數(shù)向量的均值。這個(gè)懲罰項(xiàng)強(qiáng)制將任務(wù)參數(shù)向量 a_{.,1},...,a_{.,t} 向由 λ 控制的均值聚類。他們將此約束應(yīng)用于核函數(shù)方法,但這同樣適用于線性模型。
[16] 也提出了對于 SVM 的類似約束。這個(gè)約束受到貝葉斯方法的啟發(fā),并試圖使所有模型接近平均模型。由于損失函數(shù)的平衡制約,使每個(gè) SVM 模型的間隔(margin)擴(kuò)大并產(chǎn)生類似于平均模型的結(jié)果。
[17] 在聚類的數(shù)量 C 已知的假設(shè)下,通過形式化對 A 的約束,使聚類正則化更加明確。然后他們將懲罰項(xiàng)分解為 3 個(gè)獨(dú)立的范數(shù):
衡量列參數(shù)向量平均大小的全局懲罰項(xiàng):
衡量類間距離的類間方差(between-cluster variance):
其中 T_c 是第 c 個(gè)類中任務(wù)的數(shù)量,是第 c 個(gè)類中任務(wù)參數(shù)向量的均值向量。
衡量類內(nèi)數(shù)據(jù)緊密度的類內(nèi)方差(within-cluster variance):
其中 J(c) 是第 c 個(gè)類中任務(wù)的集合。
最終的約束形式是這 3 個(gè)范數(shù)的加權(quán)和:
由于此約束假設(shè)聚類是已知的,所以它們引入了上述懲罰項(xiàng)的凸松弛(convex relaxation),這使算法允許同時(shí)學(xué)習(xí)聚類。
在另一種情況下,任務(wù)可能不在類結(jié)構(gòu)中,但具有其它的結(jié)構(gòu)。[18] 使用擴(kuò)展組合 lasso 來處理樹型結(jié)構(gòu)(tree structure)中的任務(wù),而 [19] 將其應(yīng)用于具有圖結(jié)構(gòu)(graph structure)的任務(wù)。
雖然之前對任務(wù)之間關(guān)系建模的方法使用了范數(shù)正則化,但也存在沒有用到正則化的方法:[20] 第一個(gè)提出了使用 k-nn 的任務(wù)聚類算法,而 [21] 通過半監(jiān)督學(xué)習(xí)從多個(gè)相關(guān)任務(wù)中學(xué)習(xí)通用結(jié)構(gòu)。
其它 MTL 任務(wù)之間關(guān)系的建模使用了貝葉斯方法:
[22] 提出了使用模型參數(shù)先驗(yàn)的貝葉斯神經(jīng)網(wǎng)絡(luò)方法,來鼓勵(lì)任務(wù)間使用相似的參數(shù)。[23] 將高斯過程(Gaussian process/GP)應(yīng)用于 MTL,該方法利用 GP 推斷共享協(xié)方差矩陣的參數(shù)。由于這在計(jì)算上非常昂貴,它們采用稀疏近似方案用來貪心地選擇信息量較大的樣本。[24] 同樣將 GP 應(yīng)用于 MTL,該方法利用 GP 假設(shè)所有模型抽樣于同一個(gè)普通先驗(yàn)分布。
[25] 在每個(gè)任務(wù)特定的層上使用高斯分布作為先驗(yàn)分布。為了鼓勵(lì)不同任務(wù)之間的相似性,他們建議使用任務(wù)依賴的平均值,并引入使用混合分布的任務(wù)聚類。重要的是,它們首先需要確定聚類和混合分布數(shù)量的任務(wù)特征。
基于此,[26] 使用 Dirichlet process 提取分布,并使模型能夠?qū)W習(xí)任務(wù)之間的相似性以及聚類的數(shù)量。然后,算法在同一個(gè)類中的所有任務(wù)間共享相同的模型。[27] 提出了一個(gè)分層貝葉斯模型,它學(xué)習(xí)一個(gè)潛在的任務(wù)層次結(jié)構(gòu),而 [28] 對于 MTL 使用基于 GP 的正則化,并擴(kuò)展以前的基于 GP 的方法,以便在更復(fù)雜的設(shè)置中增加計(jì)算的可行性。
其它方法側(cè)重于 on-line 多任務(wù)學(xué)習(xí)設(shè)置:[29] 將一些現(xiàn)有的方法,如 Evgeniou 等人的方法(2005)應(yīng)用到 on-line 算法。他們還提出了一種使用正則化感知機(jī)(perceptron)的 MTL 擴(kuò)展方法,該算法計(jì)算任務(wù)相關(guān)性矩陣。他們使用不同形式的正則化來偏置該任務(wù)相關(guān)性矩陣,例如,任務(wù)特征向量(characteristic vector)的接近程度或跨度子空間(spanned subspace)的維數(shù)。重要的是,與之前的方法類似,它們需要首先確定構(gòu)成該矩陣的任務(wù)特征。[30] 通過學(xué)習(xí)任務(wù)關(guān)系矩陣來擴(kuò)展之前的方法。
[31] 假設(shè)任務(wù)形成相互分隔的組,并且每個(gè)組中的任務(wù)位于低維子空間中。在每個(gè)組內(nèi),任務(wù)共享相同的特征表征,其參數(shù)與組分配矩陣(assignment matrix)一起使用代替的最小化方案學(xué)習(xí)。然而,組之間的完全分隔可能不是理想的方式,因?yàn)槿蝿?wù)可能分享一些有助于預(yù)測的特征。
[32] 通過假設(shè)存在少量潛在的基礎(chǔ)任務(wù),反過來允許來自不同組的兩個(gè)任務(wù)重疊。然后,他們將每個(gè)實(shí)際任務(wù) t 的參數(shù)向量 a_t 建模為下面的線性組合:a_t=Ls_t,其中 L∈?^{k×d} 是包含 k 個(gè)潛在任務(wù)的參數(shù)向量的矩陣,而 s_t∈?^k 是包含線性組合系數(shù)的向量。此外,它們約束潛在任務(wù)中的線性組合為稀疏;約束在稀疏模式下兩個(gè)任務(wù)之間的重疊然后控制它們之間的共享數(shù)量。最后,[33] 學(xué)習(xí)一個(gè)小的共享假設(shè)池,然后將每個(gè)任務(wù)映射到一個(gè)假設(shè)。
最近 MTL 的深度學(xué)習(xí)研究
雖然許多最近的深度學(xué)習(xí)方法已經(jīng)將多任務(wù)學(xué)習(xí)(無論是顯式使用或隱式使用)作為其模型的一部分(例子將在下一節(jié)中介紹),但是它們都采用了我們之前介紹的兩種方法,Hard 和 Soft 參數(shù)共享。相比之下,只有少數(shù)論文研究了如何在深度神經(jīng)網(wǎng)絡(luò)中開發(fā)更優(yōu)的 MTL 算法。
深度關(guān)系網(wǎng)絡(luò)
在用于計(jì)算機(jī)視覺的 MTL 中,通常的方法是共享卷積層,同時(shí)學(xué)習(xí)特定任務(wù)的全連接層。[34] 通過提出深度關(guān)系網(wǎng)絡(luò)(Deep Relationship Network)來改進(jìn)這些模型。除了圖 3 中可以看到的共享和特定任務(wù)層的結(jié)構(gòu)之外,他們在全連接層上使用矩陣先驗(yàn)(matrix priors),這樣可以讓模型學(xué)習(xí)任務(wù)之間的關(guān)系,類似于一些之前看過的貝葉斯模型。然而,這種方法仍然依賴于預(yù)定義的共享結(jié)構(gòu),這可能對于已經(jīng)充分研究的計(jì)算機(jī)視覺問題是可行的,但是其證明對于新任務(wù)來說容易出錯(cuò)。
圖 3:具有共享卷積和特定任務(wù)的全連接層與矩陣先驗(yàn)的深度關(guān)系網(wǎng)絡(luò)(Long 和 Wang,2015)。
全自適應(yīng)特征共享
從另一個(gè)極端,[35] 提出了一個(gè)從窄網(wǎng)絡(luò)(thin network)開始的自下而上的方法,并在訓(xùn)練過程中使用一個(gè)促進(jìn)類似任務(wù)分組的標(biāo)準(zhǔn),貪婪地動態(tài)拓寬網(wǎng)絡(luò)。動態(tài)創(chuàng)建分支的拓寬過程可以在圖 4 中看到。但是,貪婪方法可能無法發(fā)現(xiàn)全局最優(yōu)的模型,而將每個(gè)分支正好分配給一個(gè)任務(wù)不允許模型學(xué)習(xí)更復(fù)雜任務(wù)交互。
圖 4:完全自適應(yīng)特征共享的拓寬過程(Lu 等人,2016)。
十字繡網(wǎng)絡(luò)
[36] 從兩個(gè)獨(dú)立的模型架構(gòu)開始,如共享 Soft 參數(shù)一樣。然后,他們使用稱為十字繡(cross stitch)的單位,以允許模型通過學(xué)習(xí)前面層的輸出的線性組合來確定如何使特定任務(wù)的網(wǎng)絡(luò)利用其它任務(wù)的知識。圖 5 為模型架構(gòu),其中它們僅在池化(pooling)和全連接層之后使用十字繡單位。
圖 5:兩個(gè)任務(wù)的十字繡網(wǎng)絡(luò)(Misra 等人,2016)。
低監(jiān)督
相比之下,在自然語言處理(NLP)中,最近的工作側(cè)重于為多任務(wù)學(xué)習(xí)找到更好的任務(wù)層次:[37] 顯示當(dāng)?shù)图壢蝿?wù)用作輔助任務(wù)時(shí)應(yīng)該在低層(lower layer)監(jiān)督,如通常用于預(yù)處理的 NLP 任務(wù)(如詞性標(biāo)注/part-of-speech tagging 和命名實(shí)體識別/named entity recognition)。
聯(lián)合多任務(wù)模型
基于這一發(fā)現(xiàn),[38] 預(yù)定義了由幾個(gè) NLP 任務(wù)組成的層次結(jié)構(gòu),圖 6 為聯(lián)合多任務(wù)學(xué)習(xí)模型。
圖 6:聯(lián)合多任務(wù)模型(Hashimoto 等人,2016)。
加權(quán)損失與不確定性
與學(xué)習(xí)共享的結(jié)構(gòu)不同,[39] 通過考慮每個(gè)任務(wù)的不確定性應(yīng)用正交方法(orthogonal approach)。然后,他們通過基于較大化任務(wù)決定的不確定性的高斯似然估計(jì),求導(dǎo)多任務(wù)損失函數(shù),并以此來調(diào)整成本函數(shù)中的每個(gè)任務(wù)的相對權(quán)重。每一像素的深度回歸(per-pixel depth regression)、語義和實(shí)例分割的架構(gòu)可以在圖 7 中看到。
圖 7:用于多任務(wù)學(xué)習(xí)的基于不確定性的損失函數(shù)加權(quán)(Kendall 等人,2017)。
MTL 的張量因子分解
最近的研究旨在將現(xiàn)有方法泛化到深度學(xué)習(xí)的 MTL:[40] 概括了一些之前討論的矩陣因子分解的方法,通過使用張量因子分解將每層的模型參數(shù)分為共享和特定任務(wù)參數(shù)。
水閘網(wǎng)絡(luò)
最后,我們提出了水閘網(wǎng)絡(luò)(Sluice Network)[41],一種泛化基于深度學(xué)習(xí)的 MTL 方法(比如 Hard 參數(shù)共享和十字繡網(wǎng)絡(luò)、塊稀疏正則化方法以及最近的任務(wù)層次結(jié)構(gòu)的 NLP 方法)的模型,。圖 8 為該模型,該模型可以學(xué)習(xí)哪些層和子空間應(yīng)該共享,以及網(wǎng)絡(luò)在哪層學(xué)到了輸入序列的較佳表征。
圖 8:兩個(gè)任務(wù)的水閘網(wǎng)絡(luò)(Ruder 等人,2017)。
模型應(yīng)該共享什么?
在對這些最近的方法進(jìn)行研究之后,我們現(xiàn)在對深度 MTL 模型中怎樣共享進(jìn)行簡要總結(jié)并得出結(jié)論。傳統(tǒng)的大多數(shù) MTL 方法都側(cè)重于從相同分布中抽樣任務(wù)(Baxter,1997)。雖然這種情況有利于共享,但并不總是如此。為了開發(fā)強(qiáng)大的 MTL 模型,我們必須能夠處理無關(guān)或只松散相關(guān)的任務(wù)。
雖然 MTL 早期的深度學(xué)習(xí)研究已預(yù)先指定了為每個(gè)任務(wù)分配哪些層,但是這一策略并沒有衡量反而嚴(yán)重偏差了 MTL 結(jié)構(gòu)。在技術(shù)發(fā)明 20 年之后,Hard 參數(shù)共享(由 Caruana(1997)最初提出)仍然是標(biāo)準(zhǔn)。雖然在許多情況下很有用,但如果任務(wù)不緊密相關(guān)或需要不同層次的推理,Hard 參數(shù)共享就會快速失效。因此,最近的方法正在考慮「學(xué)習(xí)」分享什么,并且這個(gè)方法通常優(yōu)于 Hard 參數(shù)共享。此外,賦予我們的模型學(xué)習(xí)任務(wù)層次結(jié)構(gòu)的能力是有幫助的,特別是在需要不同粒度的情況下。
正如最初提到的,一旦我們優(yōu)化了多個(gè)損失函數(shù),我們就會做 MTL。與限制模型將所有任務(wù)的信息壓縮到相同的參數(shù)空間中不同,基于 MTL 的優(yōu)勢,我們上面討論的 MTL 的先進(jìn)算法是有用的,并使模型能夠了解任務(wù)之間是如何交互的。
輔助任務(wù)
當(dāng)我們希望一次獲得多個(gè)任務(wù)的預(yù)測時(shí),MTL 是非常適合的。這種情況在金融或經(jīng)濟(jì)預(yù)測中較為常見,我們可能希望預(yù)測多種相關(guān)指標(biāo)的值;或者在生物信息學(xué)中同時(shí)預(yù)測多種疾病的癥狀。
然而在大多數(shù)情況下,我們只關(guān)心一項(xiàng)任務(wù)的效果。在本節(jié)中,我們將介紹在利用多任務(wù)學(xué)習(xí)時(shí)如何找到合適的輔助任務(wù)。
?
相關(guān)任務(wù)
經(jīng)典的方法是使用相關(guān)任務(wù)作為 MTL 的輔助任務(wù)。為了了解相關(guān)任務(wù)是什么,我們將介紹一些典型的例子。Caruana(1997)使用多任務(wù)學(xué)習(xí)預(yù)測自動駕汽車的轉(zhuǎn)向方向,并將預(yù)測道路的不同特征作為輔助任務(wù);[42] 使用多任務(wù)學(xué)習(xí)進(jìn)行面部特征點(diǎn)檢測,并將頭姿勢估計(jì)和面部屬性推斷作為輔助任務(wù);[43] 共同學(xué)習(xí)查詢分類和網(wǎng)頁搜索;[44] 共同預(yù)測圖像中對象的類和坐標(biāo);最后,[45] 共同預(yù)測文本到語音的音素持續(xù)時(shí)間和頻率分布(frequency profile)。
對抗性
通常,相關(guān)任務(wù)的標(biāo)簽數(shù)據(jù)不可用。然而,在某些情況下,我們想要實(shí)現(xiàn)的任務(wù)與可用的任務(wù)結(jié)果相反。可以使用對抗損失函數(shù)來利用這些數(shù)據(jù),該損失函數(shù)不會使用梯度反轉(zhuǎn)層(gradient reversal layer)來最小化訓(xùn)練誤差,相反會較大化訓(xùn)練誤差。這個(gè)設(shè)置發(fā)現(xiàn)最近在域適應(yīng)方面取得了成功 [46]。在這種情況下的對抗任務(wù)是預(yù)測輸入的域;通過反轉(zhuǎn)對抗任務(wù)的梯度,使對抗任務(wù)的損失函數(shù)得到較大化,由于它迫使模型學(xué)習(xí)不能區(qū)分域的表征,這將有利于主任務(wù)。
提示
如前所述,MTL 可用于學(xué)習(xí)使用原任務(wù)不容易學(xué)習(xí)的特征。實(shí)現(xiàn)這一點(diǎn)的有效方法是使用提示(hint),即將特征預(yù)測為輔助任務(wù)。在自然語言處理方面,最近的應(yīng)用這個(gè)方法的例子是 [47],他們將預(yù)測一個(gè)輸入句是否包含一個(gè)正或負(fù)的情感詞作為情感分析(sentiment analysis)的輔助任務(wù),同時(shí),[48] 預(yù)測語句中是否存在名字作為名字錯(cuò)誤檢測的輔助任務(wù)。
注意力機(jī)制
類似地,輔助任務(wù)可用于將注意力集中在網(wǎng)絡(luò)可能通常忽略的部分圖像上。例如,對于學(xué)習(xí)駕駛(Caruana,1997),單任務(wù)模型通常可能忽略車道標(biāo)記,因?yàn)樗鼈儍H構(gòu)成圖像的一小部分,而且并不總在圖中出現(xiàn)。然后,將車道標(biāo)記預(yù)測作為輔助任務(wù),強(qiáng)制模型學(xué)習(xí)它們的表征;這個(gè)信息也可以用于主任務(wù)。類似地,對于面部識別,人們可能會學(xué)習(xí)將預(yù)測面部特征點(diǎn)的位置作為輔助任務(wù),因?yàn)樗鼈兺ǔJ仟?dú)特的。
量化平滑
對于許多任務(wù),訓(xùn)練目標(biāo)是量化的,即可用的標(biāo)簽是離散的,但是連續(xù)數(shù)值可能更合理。在許多情況下,需要人為評估收集的數(shù)據(jù),例如預(yù)測疾病(低/中/高)或情感分析(積極/中性/消極)的風(fēng)險(xiǎn)。使用降低量化的輔助任務(wù)可能有助于這些情況,由于目標(biāo)更平滑,它們可能更容易學(xué)習(xí)。
預(yù)測輸入
在某些情況下,使用某些特征作為輸入是不切實(shí)際的,因?yàn)樗鼈儗︻A(yù)測所需的目標(biāo)無益。但是,它們?nèi)匀豢梢灾笇?dǎo)學(xué)習(xí)任務(wù)。在這些情況下,這些特征可以用作輸出而不是輸入。[49] 提出了這種方法適用的幾種情況。
用未來預(yù)測現(xiàn)在
在許多情況下,某些特征只能在預(yù)測之后才能使用。例如,對于自動駕駛汽車,車輛通過后可以進(jìn)行更準(zhǔn)確的障礙物測量和車道標(biāo)記。Caruana(1997)也給出了肺炎預(yù)測的例子,預(yù)測后的結(jié)果能夠提供額外的醫(yī)學(xué)試驗(yàn)結(jié)果。對于這些例子,附加數(shù)據(jù)不能用作特征,因?yàn)樗粫诮r(shí)作為輸入使用。然而,它可以用作輔助任務(wù),以便在訓(xùn)練期間向模型傳入額外的信息。
表征學(xué)習(xí)
MTL 中輔助任務(wù)的目標(biāo)是使模型能夠?qū)W習(xí)對主任務(wù)有共享或有幫助的表征。迄今為止所討論的所有輔助任務(wù)都是隱式的:它們與主任務(wù)密切相關(guān),以便幫助模型學(xué)習(xí)有用的表征。更顯式的建模是可能的,例如通過采用已知的任務(wù)使模型能夠?qū)W習(xí)可遷移的表征。Cheng 等人(2015)和 [50] 采用語言模型的目標(biāo)作為輔助任務(wù)。類似地,自編碼器的目標(biāo)也可以用于輔助任務(wù)。
哪些輔助任務(wù)是有幫助的?
在本節(jié)中,我們討論了可用于 MTL 的不同輔助任務(wù),即使我們只關(guān)心一個(gè)任務(wù)。然而,我們?nèi)匀徊恢朗裁摧o助任務(wù)在實(shí)際中是有用的。尋找輔助任務(wù)主要是基于一種假設(shè),即認(rèn)為輔助任務(wù)與主任務(wù)有某種相關(guān)性,并且有助于預(yù)測主任務(wù)。
然而,我們?nèi)匀徊恢朗裁磿r(shí)候兩個(gè)任務(wù)應(yīng)該被認(rèn)為是相似或相關(guān)的。Caruana(1997)定義如果兩個(gè)任務(wù)使用相同的特征作判斷,那么這兩個(gè)任務(wù)是相似的。Baxter(2000)認(rèn)為理論上相關(guān)的任務(wù)共享一個(gè)共同的最優(yōu)假設(shè)類,即具有相同的歸納偏置。[50] 提出,如果兩個(gè)任務(wù)的數(shù)據(jù)可以使用一個(gè)從一組分布變換 F 得到的固定概率分布生成,那么兩個(gè)任務(wù)是 F-相關(guān)的。雖然這允許對不同傳感器收集的相同分類問題的數(shù)據(jù)的任務(wù)進(jìn)行推理,例如用不同角度和照明條件的相機(jī)得到的數(shù)據(jù)進(jìn)行對象識別,這不適用于處理不同問題的任務(wù)。Xue 等人(2007)討論,如果兩個(gè)任務(wù)的分類邊界即參數(shù)向量接近,則兩個(gè)任務(wù)是相似的。
在理解任務(wù)相關(guān)性方面,盡管有這些早期的理論進(jìn)展,但實(shí)踐中還沒有太多進(jìn)展。任務(wù)相似度不是二進(jìn)制的,而是在一個(gè)頻譜范圍內(nèi)。MTL 中,更多的相似任務(wù)有更大的作用,而較少的相似任務(wù)相反。允許我們的模型學(xué)習(xí)如何分享每個(gè)任務(wù),可能使我們能夠暫時(shí)避開理論的缺失,并更好利用即使是松散相關(guān)的任務(wù)。然而,我們還需要制定一個(gè)有關(guān)任務(wù)相似性的原則概念,以便了解我們應(yīng)該選擇哪些任務(wù)。
最近的工作 [52] 發(fā)現(xiàn)了標(biāo)簽滿足緊湊且均勻分布的輔助任務(wù),這適用于 NLP 中的序列標(biāo)簽問題,并且已經(jīng)在實(shí)驗(yàn)中(Ruder 等人,2017)得到證實(shí)。此外已經(jīng)發(fā)現(xiàn),主任務(wù)更有可能快速達(dá)到高峰平穩(wěn)(plateau),而輔助任務(wù)不容易達(dá)到高峰平穩(wěn) [53]。
然而,這些實(shí)驗(yàn)迄今在范圍上受到限制,最近的發(fā)現(xiàn)僅提供了加深對神經(jīng)網(wǎng)絡(luò)中多任務(wù)學(xué)習(xí)理解的啟發(fā)式線索。
結(jié)論
在本篇概述中,我們回顧了多任務(wù)學(xué)習(xí)的發(fā)展歷程,以及最近的深度學(xué)習(xí) MTL 的研究。雖然對 MTL 的應(yīng)用更加頻繁,但是有 20 年歷史的 Hard 參數(shù)共享模式仍然普遍存在于神經(jīng)網(wǎng)絡(luò) MTL 中。然而,的基于讓模型學(xué)習(xí)共享參數(shù)的方法的進(jìn)展讓我們看到了希望。同時(shí),我們對任務(wù)的理解仍然有限(如,它們的相似性、關(guān)系、層次結(jié)構(gòu)和 MTL 的用處),我們需要更多地了解它們,以便更好地了解 MTL 在深度神經(jīng)網(wǎng)絡(luò)方面的泛化能力。
參考文獻(xiàn)
1. Caruana, R. (1998). Multitask Learning. Autonomous Agents and Multi-Agent Systems, 27(1), 95–133. https://doi.org/10.1016/j.csl.2009.08.003?
2. Caruana, R. "Multitask learning: A knowledge-based source of inductive bias." Proceedings of the Tenth International Conference on Machine Learning. 1993.?
3. Baxter, J. (1997). A Bayesian/information theoretic model of learning to learn via multiple task sampling. Machine Learning, 28, 7–39. Retrieved from http://link.springer.com/article/10.1023/A:1007327622663?
4. Duong, L., Cohn, T., Bird, S., & Cook, P. (2015). Low Resource Dependency Parsing: Cross-lingual Parameter Sharing in a Neural Network Parser. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Short Papers), 845–850.?
5. Yang, Y., & Hospedales, T. M. (2017). Trace Norm Regularised Deep Multi-Task Learning. In Workshop track - ICLR 2017. Retrieved from http://arxiv.org/abs/1606.04038?
6. Abu-Mostafa, Y. S. (1990). Learning from hints in neural networks. Journal of Complexity, 6(2), 192–198. https://doi.org/10.1016/0885-064X(90)90006-Y?
7. Baxter, J. (2000). A Model of Inductive Bias Learning. Journal of Artificial Intelligence Research, 12, 149–198.?
8. Argyriou, A., & Pontil, M. (2007). Multi-Task Feature Learning. In Advances in Neural Information Processing Systems. http://doi.org/10.1007/s10994-007-5040-8?
9. C.Zhang and J.Huang. Model selection consistency of the lasso selection in high-dimensional linear regression. Annals of Statistics, 36:1567–1594, 2008?
10. Yuan, Ming, and Yi Lin. "Model selection and estimation in regression with grouped variables." Journal of the Royal Statistical Society: Series B (Statistical Methodology) 68.1 (2006): 49-67.?
11. Lounici, K., Pontil, M., Tsybakov, A. B., & van de Geer, S. (2009). Taking Advantage of Sparsity in Multi-Task Learning. Stat, (1). Retrieved from http://arxiv.org/pdf/0903.1468?
12. Negahban, S., & Wainwright, M. J. (2008). Joint support recovery under high-dimensional scaling : Benefits and perils of ?1,∞?1,∞-regularization. Advances in Neural Information Processing Systems, 1161–1168.?
13. Jalali, A., Ravikumar, P., Sanghavi, S., & Ruan, C. (2010). A Dirty Model for Multi-task Learning. Advances in Neural Information Processing Systems. Retrieved from https://papers.nips.cc/paper/4125-a-dirty-model-for-multi-task-learning.pdf?
14. Liu, S., Pan, S. J., & Ho, Q. (2016). Distributed Multi-task Relationship Learning. In Proceedings of the 19th International Conference on Artificial Intelligence and Statistics (AISTATS) (pp. 751–760). Retrieved from http://arxiv.org/abs/1612.04022?
15. Evgeniou, T., Micchelli, C., & Pontil, M. (2005). Learning multiple tasks with kernel methods. Journal of Machine Learning Research, 6, 615–637. Retrieved from http://discovery.ucl.ac.uk/13423/?
16. Evgeniou, T., & Pontil, M. (2004). Regularized multi-task learning. International Conference on Knowledge Discovery and Data Mining, 109. https://doi.org/10.1145/1014052.1014067?
17. Jacob, L., Vert, J., Bach, F. R., & Vert, J. (2009). Clustered Multi-Task Learning: A Convex Formulation. Advances in Neural Information Processing Systems 21, 745–752. Retrieved from http://eprints.pascal-network.org/archive/00004705/%5Cnhttp://papers.nips.cc/paper/3499-clustered-multi-task-learning-a-convex-formulation.pdf?
18. Kim, S., & Xing, E. P. (2010). Tree-Guided Group Lasso for Multi-Task Regression with Structured Sparsity. 27th International Conference on Machine Learning, 1–14. https://doi.org/10.1214/12-AOAS549?
19. Chen, X., Kim, S., Lin, Q., Carbonell, J. G., & Xing, E. P. (2010). Graph-Structured Multi-task Regression and an Efficient Optimization Method for General Fused Lasso, 1–21. https://doi.org/10.1146/annurev.arplant.56.032604.144204?
20. Thrun, S., & O』Sullivan, J. (1996). Discovering Structure in Multiple Learning Tasks: The TC Algorithm. Proceedings of the Thirteenth International Conference on Machine Learning, 28(1), 5–5. Retrieved from http://scholar.google.com/scholar?cluster=956054018507723832&hl=en?
21. Ando, R. K., & Tong, Z. (2005). A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data. Journal of Machine Learning Research, 6, 1817–1853.?
22. Heskes, T. (2000). Empirical Bayes for Learning to Learn. Proceedings of the Seventeenth International Conference on Machine Learning, 367–364.?
23. Lawrence, N. D., & Platt, J. C. (2004). Learning to learn with the informative vector machine. Twenty-First International Conference on Machine Learning - ICML 』04, 65. https://doi.org/10.1145/1015330.1015382?
24. Yu, K., Tresp, V., & Schwaighofer, A. (2005). Learning Gaussian processes from multiple tasks. Proceedings of the International Conference on Machine Learning (ICML), 22, 1012–1019. https://doi.org/10.1145/1102351.1102479?
25. Bakker, B., & Heskes, T. (2003). Task Clustering and Gating for Bayesian Multitask Learning. Journal of Machine Learning Research, 1(1), 83–99. https://doi.org/10.1162/153244304322765658?
26. Xue, Y., Liao, X., Carin, L., & Krishnapuram, B. (2007). Multi-Task Learning for Classification with Dirichlet Process Priors. Journal of Machine Learning Research, 8, 35–63.?
27. Daumé III, H. (2009). Bayesian multitask learning with latent hierarchies, 135–142. Retrieved from http://dl.acm.org.sci-hub.io/citation.cfm?id=1795131?
28. Zhang, Y., & Yeung, D. (2010). A Convex Formulation for Learning Task Relationships in Multi-Task Learning. Uai, 733–442.?
29. Cavallanti, G., Cesa-Bianchi, N., & Gentile, C. (2010). Linear Algorithms for Online Multitask Classification. Journal of Machine Learning Research, 11, 2901–2934.?
30. Saha, A., Rai, P., Daumé, H., & Venkatasubramanian, S. (2011). Online learning of multiple tasks and their relationships. Journal of Machine Learning Research, 15, 643–651. Retrieved from http://www.scopus.com/inward/record.url?eid=2-s2.0-84862275213&partnerID=tZOtx3y1?
31. Kang, Z., Grauman, K., & Sha, F. (2011). Learning with whom to share in multi-task feature learning. Proceedings of the 28th International Conference on Machine Learning, (4), 4–5. Retrieved from http://machinelearning.wustl.edu/mlpapers/paper*files/ICML2011Kang*344.pdf?
32. Kumar, A., & Daumé III, H. (2012). Learning Task Grouping and Overlap in Multi-task Learning. Proceedings of the 29th International Conference on Machine Learning, 1383–1390.?
33. Crammer, K., & Mansour, Y. (2012). Learning Multiple Tasks Using Shared Hypotheses. Neural Information Processing Systems (NIPS), 1484–1492?
34. Long, M., & Wang, J. (2015). Learning Multiple Tasks with Deep Relationship Networks. arXiv Preprint arXiv:1506.02117. Retrieved from http://arxiv.org/abs/1506.02117?
35. Lu, Y., Kumar, A., Zhai, S., Cheng, Y., Javidi, T., & Feris, R. (2016). Fully-adaptive Feature Sharing in Multi-Task Networks with Applications in Person Attribute Classification. Retrieved from http://arxiv.org/abs/1611.05377?
36. Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016). Cross-stitch Networks for Multi-task Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. https://doi.org/10.1109/CVPR.2016.433?
37. S?gaard, A., & Goldberg, Y. (2016). Deep multi-task learning with low level tasks supervised at lower layers. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 231–235.?
38. Hashimoto, K., Xiong, C., Tsuruoka, Y., & Socher, R. (2016). A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks. arXiv Preprint arXiv:1611.01587. Retrieved from http://arxiv.org/abs/1611.01587?
39. Kendall, A., Gal, Y., & Cipolla, R. (2017). Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics. Retrieved from http://arxiv.org/abs/1705.07115?
40. Yang, Y., & Hospedales, T. (2017). Deep Multi-task Representation Learning: A Tensor Factorisation Approach. In ICLR 2017. https://doi.org/10.1002/joe.20070?
41. Ruder, S., Bingel, J., Augenstein, I., & S?gaard, A. (2017). Sluice networks: Learning what to share between loosely related tasks. Retrieved from http://arxiv.org/abs/1705.08142?
42. Zhang, Z., Luo, P., Loy, C. C., & Tang, X. (2014). Facial Landmark Detection by Deep Multi-task Learning. In European Conference on Computer Vision (pp. 94–108). https://doi.org/10.1007/978-3-319-10599-4_7?
43. Liu, X., Gao, J., He, X., Deng, L., Duh, K., & Wang, Y.-Y. (2015). Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval. Naacl-2015, 912–921.?
44. Girshick, R. (2015). Fast R-CNN. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1440–1448). https://doi.org/10.1109/iccv.2015.169?
45. Ar?k, S. ?., Chrzanowski, M., Coates, A., Diamos, G., Gibiansky, A., Kang, Y., … Shoeybi, M. (2017). Deep Voice: Real-time Neural Text-to-Speech. In ICML 2017.?
46. Ganin, Y., & Lempitsky, V. (2015). Unsupervised Domain Adaptation by Backpropagation. In Proceedings of the 32nd International Conference on Machine Learning. (Vol. 37).?
47. Yu, J., & Jiang, J. (2016). Learning Sentence Embeddings with Auxiliary Tasks for Cross-Domain Sentiment Classification. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP2016), 236–246. Retrieved from http://www.aclweb.org/anthology/D/D16/D16-1023.pdf?
48. Cheng, H., Fang, H., & Ostendorf, M. (2015). Open-Domain Name Error Detection using a Multi-Task RNN. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (pp. 737–746).?
49. Caruana, R., & Sa, V. R. de. (1997). Promoting poor features to supervisors: Some inputs work better as outputs. Advances in Neural Information Processing Systems 9: Proceedings of The 1996 Conference, 9, 389. Retrieved from http://scholar.google.com/scholar?start=20&q=author:%22Rich+Caruana%22&hl=en#6?
50. Rei, M. (2017). Semi-supervised Multitask Learning for Sequence Labeling. In ACL 2017.?
51. Ben-David, S., & Schuller, R. (2003). Exploiting task relatedness for multiple task learning. Learning Theory and Kernel Machines, 567–580. https://doi.org/10.1007/978-3-540-45167-9_41?
52. Alonso, H. M., & Plank, B. (2017). When is multitask learning effective? Multitask learning for semantic sequence prediction under varying data conditions. In EACL. Retrieved from http://arxiv.org/abs/1612.02251?
53. Bingel, J., & S?gaard, A. (2017). Identifying beneficial task relations for multi-task learning in deep neural networks. In EACL. Retrieved from http://arxiv.org/abs/1702.08303?
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4561.html
摘要:未來向何處去做領(lǐng)袖不容易,要不斷地指明方向。又譬如想識別在這些黑白圖像中,是否包含從到的手寫體數(shù)字,那么深度學(xué)習(xí)的傳統(tǒng)做法是,輸出一個(gè)維向量,,其中每個(gè)元素的取值范圍是,表示出現(xiàn)相應(yīng)數(shù)字的概率。老爺子的論文中,輸出的是十個(gè)維向量,其中。 CNN 未來向何處去?做領(lǐng)袖不容易,要不斷地指明方向。所謂正確的方向,不僅前途要輝煌,而且道路要盡可能順暢。Geoffrey Hinton 是深度學(xué)習(xí)領(lǐng)域的...
摘要:就在最近,這項(xiàng)技術(shù)在流行地?zé)o監(jiān)督學(xué)習(xí)數(shù)據(jù)集上實(shí)現(xiàn)了非常好的結(jié)果。雖然這項(xiàng)工作并不針對無監(jiān)督學(xué)習(xí),但是它可以用作無監(jiān)督學(xué)習(xí)。利用替代類別的無監(jiān)督學(xué)習(xí)視覺表征使用圖像不行來創(chuàng)建非常大的替代類。 如今深度學(xué)習(xí)模型都需要在大規(guī)模的監(jiān)督數(shù)據(jù)集上訓(xùn)練。這意味著對于每一個(gè)數(shù)據(jù),都會有一個(gè)與之對應(yīng)的標(biāo)簽。在很流行的 ImageNet 數(shù)據(jù)集中,其共有一百萬張帶人工標(biāo)注的圖片,即 1000 類中的每一類都有 ...
摘要:機(jī)器學(xué)習(xí)系統(tǒng)被用來識別圖像中的物體將語音轉(zhuǎn)為文本,根據(jù)用戶興趣自動匹配新聞消息或產(chǎn)品,挑選相關(guān)搜索結(jié)果。而深度學(xué)習(xí)的出現(xiàn),讓這些問題的解決邁出了至關(guān)重要的步伐。這就是深度學(xué)習(xí)的重要優(yōu)勢。 借助深度學(xué)習(xí),多處理層組成的計(jì)算模型可通過多層抽象來學(xué)習(xí)數(shù)據(jù)表征( representations)。這些方法顯著推動了語音識別、視覺識別、目標(biāo)檢測以及許多其他領(lǐng)域(比如,藥物發(fā)現(xiàn)以及基因組學(xué))的技術(shù)發(fā)展。...
閱讀 3298·2023-04-26 02:40
閱讀 4650·2021-09-22 15:22
閱讀 1591·2021-09-22 10:02
閱讀 3485·2021-08-11 10:23
閱讀 1393·2019-08-30 15:55
閱讀 2496·2019-08-30 12:48
閱讀 590·2019-08-30 11:04
閱讀 704·2019-08-29 16:29