AI視頻生成賽道風起云涌,國內外新穎的文生、圖生視頻產品層出不窮。在各大廠商的“內卷”之下,當下的視頻生成模型各方面已經接近“以假亂真”的效果。例如,OpenAI 的 Sora 和國內的 Vidu、可靈等模型,通過利用 Diffusion Transformer 的擴展特性,不僅能夠滿足各種分辨率、尺寸和時長的預測要求,同時生成的視頻更符合物理世界的表現。
但與此同時,大部分視頻生成模型的準確程度、遵循指令的能力還有待提升,生成視頻仍然是一個“抽卡”的過程,往往需要用戶生成許多次,才能獲得符合需求的結果。這也造成算力成本過高、資源浪費等問題。
為了解決這些問題,阿里云提出了一種基于 DiT 架構的軌跡可控視頻生成模型 Tora。Tora能夠根據任意數量的物體軌跡,圖像和文本條件生成不同分辨率和時長的視頻,在 720p分辨率下能夠生成長達204 幀的穩定運動視頻。值得注意的是,Tora繼承了DiT的scaling特性,生成的運動模式更流暢,更符合物理世界。
Tora支持軌跡、文本、圖像三種模態,或它們的組合輸入,可對不同時長、寬高比和分辨率的視頻內容進行動態精確控制。
軌跡輸入可以是各種各樣的直線、曲線,其具有方向,不同方向的多個軌跡也可以進行組合。
例如,你可以用一條S型曲線控制漂浮物的運動軌跡,同時用文字描述來控制它的運動速度。下面這個視頻中,所使用的提示詞用到了“緩慢”、“優雅”、“輕輕”等副詞。
與目前常見的運動筆刷功能有所不同的是,即使沒有輸入圖像,Tora也可以基于軌跡和文本的組合,生成對應的視頻。
例如下面這個視頻中的1、3兩個視頻,就是在沒有初始幀,只有軌跡和文字的情況下生成的。
Tora也支持首尾幀控制,不過這個案例只以圖片形式出現在官方給出的論文里,并沒有提供視頻演示。
基于OpenSora框架,創新兩種運動處理模塊
如下圖所示,Tora包括一個Spatial-Temporal Denoising Diffusion Transformer,(ST-DiT,時空去噪擴散變換器)、一個Trajectory Extractor(TE,軌跡提取器)和一個Motion-guidance Fuser(MGF,運動引導融合器)。
Tora 的 ST-DiT 繼承了 OpenSora v1.2 的設計,將輸入視頻在時空維度上壓縮成Spacetime visual patches(時空視覺補丁),再通過交替的spatial transformer block(空域變換器塊) 和temporal transformer block(時域變換器塊)進行噪聲預測。
為了實現用戶友好的軌跡控制,TE 和 MGF 將用戶提供的軌跡編碼為多層次的Spacetime motion patches(時空運動補丁),再通過自適應歸一化層將這些patches無縫整合到每個DiT block中,以確保生成視頻的運動與預定義的軌跡一致。
有了與visual patches共享特征空間的運動特征后,下一步需要將多層次的運動特征引入到相應的 DiT 塊中,使生成的運動能夠遵循預定義的軌跡,同時不影響原有的視覺效果。
Tora 參考了transformer的多種特征注入結構,如上圖所示,Motion-guidance Fuser實驗了包括額外通道連接、自適應歸一化和交叉注意力三種架構。
實驗結果顯示,自適應歸一化在視覺質量和軌跡跟隨程度方面表現最佳,同時計算效率最高。自適應歸一化層能夠根據多樣化的條件(文本&軌跡&圖像)動態調整特征,確保視頻生成的時間一致性。這在注入運動線索時尤為重要,能夠有效維持視頻運動的連續性和自然性。
實現細節與測試數據
Tora 基于 OpenSora v1.2 權重,使用分辨率從 144p 到 720p、幀數從 51 幀到 204 幀不等的視頻進行訓練。為平衡不同分辨率和幀數的訓練 FLOP和所需內存,批次大小調整為 1 到 25。
訓練過程分為兩個階段,首先使用密集光流進行 2 個 epoch 的訓練,然后使用稀疏光流進行 1 個 epoch 的微調。
在推理過程中,精選了 185 個包含多樣化運動軌跡和場景的長視頻片段,作為評估運動可控性的新基準。
在AI視頻生成時長、質量已經達到一定程度之際,如何讓生成的視頻更可控、更符合需求,是當下的重要命題。
在精準度、可控性和資源利用效率等方面的持續優化下,AI視頻生成產品的使用體驗將迎來新的階段,價格也會更加親民,讓更多創作者參與進來。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/131146.html
摘要:提到的云計算布局,就不得不提到年月中國領袖峰會上,三位掌門人針對云計算的同臺論道。且從官方有限的披露資料而言,很難對現階段的百度云計算獨立做評判。該計劃提出的發展目標是到年,我國云計算產業規模達到億元。提到BAT的云計算布局,就不得不提到2010年3月中國IT領袖峰會上,BAT三位掌門人針對云計算的同臺論道。坐在臺上的百度和騰訊創始人相繼發言,李彥宏不客氣的說,云計算好比新瓶裝舊酒,技術上沒...
摘要:是一系列關于開發的規范,分有好幾個版本,自己學的也較為膚淺,但還是希望能時常查看規范,為了方便記憶和遵循,我把關鍵詞為必須的撿拾出來,做個簡單地必要規范的記錄。所有文件必須使用作為行的結束符。 PSR是一系列關于PHP開發的規范,分有好幾個版本,自己學的也較為膚淺,但還是希望能時常查看規范,為了方便記憶和遵循,我把關鍵詞為必須的撿拾出來,做個簡單地必要規范的記錄。(就是個搬磚的。。。)...
摘要:年,王堅帶著解決大規模算力瓶頸的任務加入阿里。王堅帶隊,目標是自研大數據計算平臺統一阿里巴巴內部的數據和大數據計算體系。不僅如此,它們的存儲和計算成本還令人意外地降低。從年到年,杭州從全國最擁堵城市排行榜上下跌名。 摘要:?2009年這項關于大數據的技術長征開始。王堅帶隊,目標是自研大數據計算平臺MaxCompute統一阿里巴巴內部的數據和大數據計算體系。 大數據時代,隨著企業數據規...
摘要:中國云計算產業進入下半場。業內人士認為,阿里云也是抄上的。一超多強長期存在,背后是生態在較量據年上半年中國公有云市場份額調研報告顯示,阿里云騰訊云金山云位列前三,合計占據了中國公有云的市場份額。中國云計算產業進入下半場。標志是政府和傳統企業開始上云。2006年,Amazon Web Services(AWS)開始向企業提供IT基礎設施服務。作為戰略的跟隨者,阿里巴巴于2008年開始布局云計算...
摘要:在上能看到好多效果驚艷的圖標。現在來看代碼,相信不會再是一頭霧水了也可以用控制的屬性,控制的動畫過程,做成能響應點擊等事件的圖標按鈕。當然能做的遠不止圖標,這里有不少例子。? ? ? ?? ? ? ? ??? ? ? ? ? ?? ? ? ? ? ? ??? ? ? ? ? ? ??? ? ? ? ?? 在 ?loading.io?上能看到好多效果驚艷的loading圖標。它們都是用sv...
閱讀 2887·2025-01-02 11:25
閱讀 426·2024-12-10 11:51
閱讀 424·2024-11-07 17:59
閱讀 380·2024-09-27 16:59
閱讀 517·2024-09-23 10:37
閱讀 600·2024-09-14 16:58
閱讀 375·2024-09-14 16:58
閱讀 593·2024-08-29 18:47