摘要:在等機構新提出的論文中,其采用了大規模數據集與深度神經網絡學習圖像的自然結構,從而進一步分離圖像的前景與背景。一張手動摳圖的前景圖擁有簡單背景作為輸入。對于每一張測試圖像,按照降序從第列到第列顯示了度量下的排名結果排名到。
摳圖,一直是一件體力活,它需要大量的操作與時間。而傳統摳圖算法主要是以色彩為特征分離前景與背景,并在小數據集上完成,而這就造成了傳統算法的局限性。在 Adobe 等機構新提出的論文中,其采用了大規模數據集與深度神經網絡學習圖像的自然結構,從而進一步分離圖像的前景與背景。
論文地址:https://arxiv.org/abs/1703.03872
摘要
摳圖(Image matting)是一項基本的計算機視覺問題,并擁有廣闊的應用空間。當圖像的前景(foreground)和背景顏色或復雜紋理類似時,早先的算法表現得差強人意。主要是因為:1. 只有低級特征(low-level features);2. 缺乏高層次上下圖境(high-level context)。在本篇論文中,我們提出了一種基于深度學習的新算法,該算法可以解決這兩個問題。我們的深度模型分為兩個階段。第一階段是深度卷積編碼-解碼網絡(deep convolutional encoder-decoder network),該神經網絡將圖像和相對應的三分圖(trimap)作為輸入,并預測圖像的α蒙版(alpha matte)。第二階段是一個小型卷積神經網絡,該神經網絡對第一個網絡預測的α蒙版進行精煉從而擁有更準確的α值和銳化邊緣。另外,我們還創建了一個大規模摳圖數據集(large-scale image matting dataset),該數據集包含 49300 張訓練圖像和 1000 張測試圖像。我們在摳圖基準、測試數據集和各種真實圖像上評估了我們的算法。實驗結果清楚地表明了我們的算法比先前的方法更具優越性。
簡介
摳圖(Image matting),即在圖像或視頻中較精確估計前景的問題,具有很重要的實用性。它是圖像編輯和電影制作的關鍵技術,高效的自然圖像摳圖方法能極大地提升當前的圖像視頻處理流程的效率。并且這種技術是無約束場景(unconstrained scenes)下處理真實世界圖像的必要方法。
然而,目前摳圖算法還是具有很大的局限性:
首先第一個局限性就是目前用來求解摳圖方程式(matting equation)的方法存在問題。
其中 Ii 是像素塊 i 的 RGB 色彩,已知前景色彩 Fi,背景色彩 Bi,未知蒙版估計(matte estimation)αi。在這個方程式中,摳圖問題形式化為兩種顏色的線性組合,因此大多數現存的算法很大一部分都是將其近似求解色彩的問題。
另一個局限性就因為小數據集而產生。一般用于摳圖的數據真值(ground truth)是很復雜的,而 alphamatting.com 數據集通過提供標記數據集對摳圖研究做出了很重要的貢獻。不過因為該數據集僅僅只由 27 張訓練圖像和 8 張測試圖像組成,那么這樣大小的數據集會帶來自然偏差(nature biased),訓練出來的算法也會很難進行泛化。
在這項研究中,我們提出了一種旨在克服這些局限性的方法。我們的方法就是使用深度學習在給定輸入圖像和三分圖的基礎上直接計算α蒙版(alpha matte)。我們的神經網絡并不首要依賴于色彩信息,它會學習圖像的自然結構,并將其反映到α蒙版中。例如毛發(通常需要將其摳出來)就擁有很強的結構和紋理圖案,它們通常存在能抽取出的共同結構或α蒙版輪廓。并且由于低層次的特征并不會捕獲這些結構,那么就需要深度神經網絡去表征它們了。我們的兩階段神經網絡包含了編碼器-解碼器階段和使用小型殘差網絡進行精煉階段。我們是第一個證明了在給定輸入圖像和三分圖的情況下能采用端到端的方式學習到α蒙版。
如下圖所示,實際上我們能在三分圖(trimap)未知前景或背景的情況下產生很好的結果,而在這種情況下,大多數算法都返回不了什么內容。
圖 1:我們的方法和封閉形式的摳圖(Closed form matting)對比。第一張圖像是從 Alpha Matting 基準而來,第二張圖像是從我們千張測試圖像中抽取的。
為了訓練我們的深度神經網絡,如下圖所示,我們將識別目標(前景)摳取出來,并放入不同的背景而構建一個大型摳圖數據集。
圖 2:創建數據集。a) 一張手動摳圖的前景圖(擁有簡單背景)作為輸入。b) 經計算的α蒙版。c) 經計算的前景圖像,可以作為對象放入到各種背景圖像(d-f)中。
我們通過深度學習解決摳圖問題。給定一個新的數據集(大規模摳圖數據集),我們的神經網絡能充分利用這些數據進行訓練。并且該神經網絡由以下兩個階段組成。
圖 3:我們的神經網絡由兩階段組成,編碼-解碼階段(Sec. 4.1)和精煉階段 (Sec. 4.2)
精煉圖像的效果在圖 4 中展示了。注意,該精煉網絡并沒有大規模改變α蒙版,只不過是精煉并銳化α值。
圖 4:摳圖精煉網絡的效果。a) 輸入圖像。b) 編碼-解碼階段的輸出。c) 精煉階段的輸出結果
下一張圖表明了在 SAD 度量(SAD metric)下的排名結果。
圖 6:α蒙版預測使用「user」三分圖的「Troll」和「small」三分圖的「Doll」作為測試圖像。第一列顯示了測試圖像。對于每一張測試圖像,按照降序從第 2 列到第 6 列顯示了 SAD 度量(SAD metric)下的排名結果(排名 1 到 5)。在這兩個例子中,我們的方法都實現了較好的結果。
結論
為了泛化到自然圖像中,摳圖算法必須超越以色彩作為主要線索,并能利用更加結構性和語義性的特征(structural and semantic features)。在該項研究中,我們展示了一種神經網絡,它有足夠的能力捕捉到高層次特征(high-order features),并利用它們計算且提升摳圖效果。實驗還展示了我們的方法不僅在標準數據集上優于以前的方法,而且它在泛化到真實圖像上也顯著地比現存算法表現更優良一些。 ?
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4493.html
摘要:所以,我們美團外賣技術團隊嘗試結合技術,來協助設計師避免這種低收益高重復的任務,同時低成本高效率高質量地完成海報圖片的生成。圖封面配色布局設計在設計領域的一些子問題上,可以用算法來挖掘出數據背后的規律如圖所示。 背景 在視覺設計領域中,設計師們往往會因為一些簡單需求付出相當多的時間,比如修改文案內容,設計簡單的海報版式,針對不同機型、展位的多尺寸拓展等。這些工作需要耗費大量的時間、人力...
摘要:那些局部響應由小的通常神經補丁表示。概述我們尋求對損失函數進行了優化的修復圖像,其被表示為三個項的組合整體內容項,局部紋理項和項。我們的方法使用兩個聯合損失函數來解決未知圖像,即整體內容損失和局部紋理損失。 完勝 PS!新方法實現完美腦補在分享照片之前,你可能會想進行一些修改,例如擦除分散注意力的場景元素,調整圖像中的物體位置以獲得更好的組合效果,或者把被遮擋的部分恢復出來。這些操作,以及其...
閱讀 3574·2023-04-26 02:05
閱讀 2016·2021-11-19 11:30
閱讀 4225·2021-09-30 09:59
閱讀 3182·2021-09-10 10:51
閱讀 2612·2021-09-01 10:30
閱讀 1491·2021-08-11 11:20
閱讀 2621·2019-08-30 15:54
閱讀 571·2019-08-30 10:49