繼前幾日推出完開源大模型Llama 3.1后,就在剛剛,Meta在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 來了。在其前身的基礎上,SAM 2 的誕生代表了領域內的一次重大進步 —— 為靜態(tài)圖像和動態(tài)視頻內容提供實時、可提示的對象分割,將圖像和視頻分割功能統一到一個強大的系統中。
SAM 2可以快速、精確地在任何視頻或圖像中選擇對象。它不僅能在圖像中分割對象,還能在視頻中追蹤對象,即使這些對象在訓練時從未見過。該模型支持實時互動,非常適合各種實際應用,比如視頻編輯和互動式媒體內容制作。
SAM2的核心優(yōu)勢在于其快速精準的對象分割能力,無論是靜態(tài)圖像還是動態(tài)視頻,它都能輕松應對。這一模型不僅能夠識別和分割圖像中的單一對象,還能在視頻流中實時追蹤對象,即便這些對象在訓練階段未曾出現過。SAM2的實時互動特性,使其在視頻編輯和互動媒體內容制作等領域具有廣泛的應用前景。
它采用了統一的架構設計,無需針對圖像和視頻分別訓練,就能同時處理兩種類型的分割任務。這種設計大大提高了模型的通用性和效率,為各種視覺應用場景提供了強大支持。
與 SAM 一樣,SAM 2 也會開源并免費使用,并在 Amazon SageMaker 等平臺上托管。為了履行對開源 AI 的承諾,Meta 使用寬松的 Apache 2.0 協議共享代碼和模型權重,并根據 BSD-3 許可分享 SAM 2 評估代碼。
正如扎克伯格上周在一封公開信中指出的那樣,開源人工智能比任何其他現代技術都更具有潛力,可以提高人類的生產力、創(chuàng)造力和生活質量,同時還能加速經濟增長并推動突破性的醫(yī)學和科學研究。人工智能社區(qū)利用 SAM 取得的進展給我們留下了深刻的印象, SAM 2 必將釋放更多令人興奮的可能性。
而SAM 2 前腳剛上線,大家就迫不及待的用起來了:「在 Meta 未提供的測試視頻上試用 SAM 2。效果好得令人瞠目結舌。」
同時還有網友認為,SAM 2 的出現可能會使其他相關技術黯然失色。
SAM 能夠了解圖像中對象的一般概念。然而,圖像只是動態(tài)現實世界的靜態(tài)快照。許多重要的現實用例需要在視頻數據中進行準確的對象分割,例如混合現實、機器人、自動駕駛車輛和視頻編輯。Meta 認為通用的分割模型應該適用于圖像和視頻。
圖像可以被視為具有單幀的非常短的視頻。Meta 基于這個觀點開發(fā)了一個統一的模型,無縫支持圖像和視頻輸入。處理視頻的唯一區(qū)別是,模型需要依靠內存來調用該視頻之前處理的信息,以便在當前時間步準確地分割對象。
視頻中對象的成功分割需要了解實體在空間和時間上的位置。與圖像分割相比,視頻提出了重大的新挑戰(zhàn)。對象運動、變形、遮擋、光照變化和其他因素可能會因幀而異。由于攝像機運動、模糊和分辨率較低,視頻的質量通常低于圖像,這增加了難度。因此,現有的視頻分割模型和數據集在為視頻提供可比的「分割任何內容」功能方面存在不足。
Meta 構建 SAM 2 和新 SA-V 數據集來解決這些挑戰(zhàn)。
與用于 SAM 的方法類似,Meta 對視頻分割功能的研究涉及設計新任務、模型和數據集。
然后,研究團隊使用 SAM 2 來幫助創(chuàng)建視頻對象分割數據集 ——SA-V,該數據集比當前存在的任何數據集大一個數量級。研究團隊使用它來訓練 SAM 2 以實現 SOTA 性能。
研究團隊設計了一個可提示的視覺分割任務,將圖像分割任務推廣到視頻領域。SAM 經過訓練,可以將圖像中的點、框或蒙版作為輸入,以定義目標對象并預測分割蒙版。
借助 SAM 2,我們訓練它接受視頻任意幀中的輸入提示,以定義要預測的時空蒙版(即“蒙版小片”)。
SAM 2 根據輸入提示立即預測當前幀上的蒙版,并將其在時間上傳播以生成所有視頻幀中的目標對象的蒙版小片。一旦預測了初始蒙版小片,就可以通過在任意幀中向 SAM 2 提供額外提示來迭代細化它。這可以根據需要重復多次,直到獲得所需的蒙版小片。
為了收集一個大型且多樣化的視頻分割數據集,Meta 建立了一個數據引擎,其中注釋員使用 SAM 2 交互地在視頻中注釋 masklet,然后將新注釋的數據用于更新 SAM 2。他們多次重復這一循環(huán),以迭代地改進模型和數據集。與 SAM 類似,Meta 不對注釋的 masklet 施加語義約束,注重的是完整的物體(如人)和物體的部分(如人的帽子)。
借助 SAM 2,收集新的視頻對象分割掩碼比以往更快,比每幀使用 SAM 快約 8.4 倍。此外,Meta 發(fā)布的 SA-V 數據集的注釋數量是現有視頻對象分割數據集的十倍以上,視頻數量大約是其 4.5 倍。
總結而言,SA-V 數據集的亮點包括:
在大約 51,000 個視頻中有超過 600,000 個 masklet 注釋;
視頻展示了地理上不同的真實場景,收集自 47 個國家;
覆蓋整個對象、對象中的一部分,以及在物體被遮擋、消失和重新出現的情況下具有挑戰(zhàn)性的實例。
雖然 SAM 2 在分割圖像和短視頻中的對象方面表現出色,但仍然會遇到諸多挑戰(zhàn)。
SAM 2 可能會在攝像機視角發(fā)生劇烈變化、長時間遮擋、擁擠的場景或較長的視頻中失去對對象的追蹤。
在實際應用中,Meta 設計了交互式模型來緩解這一問題,并通過在任意幀中點擊校正來實現人工干預,從而恢復目標對象。
當目標對象只在一幀中指定時,SAM 2 有時會混淆對象,無法正確分割目標,如上述的馬匹所示。在許多情況下,通過在未來幀中進行額外的細化提示,這一問題可以完全解決,并在整個視頻中獲得正確的 masklet。
雖然 SAM 2 支持同時分割多個多帶帶對象的功能,但模型的效率卻大大降低。實際上,SAM 2 對每個對象進行多帶帶處理,只利用共享的每幀嵌入,不進行對象間通信。雖然這簡化了模型,但納入共享的對象級上下文信息有助于提高效率。
在同一幀或其他幀中添加進一步的提示來優(yōu)化預測只能部分緩解此問題。在訓練過程中,如果模型預測在幀間抖動,不會對其進行任何懲罰,因此無法保證時間上的平滑性。提高這種能力可以促進需要對精細結構進行詳細定位的實際應用。
雖然 Meta 的數據引擎在循環(huán)中使用了 SAM 2,且在自動 masklet 生成方面也取得了長足進步,但仍然依賴人工注釋來完成一些步驟,例如驗證 masklet 質量和選擇需要校正的幀。
因此,未來的發(fā)展需要進一步自動化這個數據注釋過程,以提高效率。要推動這項研究,還有很多工作要做。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/131142.html
隨著大型模型技術的持續(xù)發(fā)展,視頻生成技術正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術,正在重新定義行業(yè)的未來格局。而近幾個月,國產的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢、智譜清影、Vidu、PixVerse V2 等。就在近日,智譜AI秉承以先進技術,服務全球開發(fā)者的理念,宣布將與清影同源的視頻生成模型——CogVideoX開源,以期讓每一位開發(fā)者、每一家企...
摘要:部署旨在幫助開發(fā)人員和研究人員訓練大規(guī)模機器學習模型,并在移動應用中提供驅動的用戶體驗。現在,開發(fā)人員可以獲取許多相同的工具,能夠在大規(guī)模分布式場景訓練模型,并為移動設備創(chuàng)建機器學習應用。 AI 模型的訓練和部署通常與大量數據中心或超級計算機相關聯,原因很簡單。從大規(guī)模的圖像、視頻、文本和語音等各種信息中持續(xù)處理、創(chuàng)建和改進模型的能力不是小型計算擅長的。在移動設備上部署這些模型,使其快速輕量...
摘要:在本次競賽中,南京信息工程大學和帝國理工學院的團隊獲得了目標檢測的最優(yōu)成績,最優(yōu)檢測目標數量為平均較精確率為。最后在視頻目標檢測任務中,帝國理工大學和悉尼大學所組成的團隊取得了較佳表現。 在本次 ImageNet 競賽中,南京信息工程大學和帝國理工學院的團隊 BDAT 獲得了目標檢測的最優(yōu)成績,最優(yōu)檢測目標數量為 85、平均較精確率為 0.732227。而在目標定位任務中Momenta和牛津...
閱讀 2887·2025-01-02 11:25
閱讀 426·2024-12-10 11:51
閱讀 424·2024-11-07 17:59
閱讀 380·2024-09-27 16:59
閱讀 517·2024-09-23 10:37
閱讀 600·2024-09-14 16:58
閱讀 375·2024-09-14 16:58
閱讀 593·2024-08-29 18:47