在當今數字化世界中,視頻已成為人們獲取信息和娛樂的主要方式之一。AI視頻生成領域的競爭也很激烈,Pika、Sora、Luma AI以及國內的可靈等,多模態、視頻生成甚至也被視為大模型發展的某種必經之路。然而與文本生成相比,視頻生成模型場景似乎更遠,Sora在二月份引起了重大關注但是至今還沒有面向公眾開放試用。今天要介紹的Twelve Labs是一家標志性的企業,它憑借其先進的技術,致力于打造多模態視頻搜索引擎,為用戶提供更智能、更高效的視頻搜索體驗。
Twelve Labs的目標是,讓視頻的處理和搜索變得和文本一樣容易。場景式視頻內容理解是主流:增加視頻數據和高質量視頻內容是未來 AIGC 在媒體和娛樂領域規模化采用的基礎,場景式理解視頻內容 (Context Understanding of Video) 將會成為技術主流。視頻內容處理可以細化到每一個瞬間,大大提高了視頻內容在不同社交平臺的傳播效率。AI原生產品的絲滑體驗感:自動化視頻數據標注和數據生成可以極大的降低成本,把勞動力從重復性的工作中解放出來。Twelve Labs 把標注,搜索和生成端到端的設計起來,創造了極優的產品體驗。Twelve Labs 是一個人工智能平臺,幫助開發者創建視頻搜索和生成能力。該產品可在視頻中提取特定視頻瞬間,包括視覺、音頻、文本和上下文信息,以實現語義搜索、分析和洞察。該公司的愿景是創建用于多模式視頻理解的基礎設施,其自研模型可用于媒體分析并自動生成精彩片段。目前已被從多個頂級風投機構投資。Twelve Labs的核心技術是開發多模態的AI大模型,能夠像人類一樣理解視頻內容。它通過三個步驟自動搜索,分類和生成來簡化用戶的工作流程,但其中包括了幾種主要的產品功能,只需通過對接 API 就可以使用:此模型分析視頻的語義內容(Sematic search),包括視頻,音頻,Logo 等數字材料,文字等全面分析場景關聯性,以實現高效且準確的特定視頻片段檢索,幫助用戶在無需觀看完整內容的情況下精準搜索到大量來自 Youtube, Tiktok,Reels 等視頻庫的材料。傳統的視頻搜索主要都是基于標題和特定標簽信息來完成的,而 Twelve Labs 的產品可以根據對視頻包括音頻內容的理解和用戶輸文字的語義來進行定位。
如果你是一個視頻內容平臺如抖音,數據庫里有海量的視頻資源,你有很多的用戶,但是每個用戶可能只對其中一類或者幾類視頻感興趣。那如何只推送用戶喜歡的內容呢?傳統的內容推薦大多都是根據用戶的偏好設置和用戶行為數據,根據視頻的標題和標簽進行匹配來進行的。這種推薦的結果一般初期效果比較差,并且帶有很強的不確定性。這個基于AI大模型的分類功能除了能很好地完成個性化內容推薦任務,還可以做精準廣告投放,公司內部視頻資源的整理。它通過分析視頻中的語義特征、對象和動作,將視頻自動分類為預定義的類別,如體育、新聞、娛樂或紀錄片。這增強了內容發現能力,并提供個性化推薦。同時,此功能基于內容相似性對視頻進行分組,而不需要標簽數據。它使用視頻嵌入來捕捉視覺和時間信息,便于測量相似性并將相似視頻進行歸類。該功能集成文本描述和視頻內容,使模型能夠理解并生成基于文本的摘要、描述或對視頻內容的響應。它彌合了視覺和文本理解之間的差距。還可以在生成的視頻上自由修改和插入視頻內容,有提供用戶利用細分賽道數據的微調模型的功能,例如客戶會需要微調「茄瓜沙律」為「雞胸肉沙律」。Twelve Labs商業模式主要做ToB的業務,比如視頻內容提供商,媒體資產管理,執法部門的數字證據管理等,目前已經與Vidispine、EMAM、Blackbird等公司建立深度合作。這個模型能夠生成自然語言的描述以及視頻的簡潔摘要,從而捕獲關鍵的信息和重要的時刻。在此基礎上,結合深度學習算法實現對語義內容進行理解分析,并以文本形式呈現給用戶。特別是對于那些有視覺問題或時間受限的用戶來說,這種方法增強了理解能力和參與度。同時,該系統提供一種基于語音識別技術的個性化視頻分享平臺。你還可以利用自定義的prompt工具來創建具有不同重點的長篇視頻總結、故事或自媒體文章等內容。為了實現大規模莫場景式視頻理解搜索和生成,Twelve Labs 建立了兩個視頻語言大模型,奠定了極大的技術優勢:
- Pegasus-1(800 億參數)是 Twelve Labs 的視頻語言模型(Video-to-Text),通過「視頻優先」策略確保卓越的視頻理解,具有高效的長視頻處理、多模態理解、原生視頻嵌入和深度視頻語言對齊的優點。憑借 800 億參數并在 3 億視頻-文本對的大型數據集上進行訓練,它顯著超越了之前的模型。在 MSR-VTT 數據集上顯示出 61% 的提升,在視頻描述數據集上提升了 47%。與 Whisper-ChatGPT 等 ASR+LLM 模型相比,Pegasus-1 的性能提升高達 188%,在視頻轉文本的準確性和效率上設立了新標準。
- Marengo-2.6 是一款最先進的多模態基礎模型,擅長執行文本到視頻、文本到圖像和文本到音頻等任意搜索任務。它在 MSR-VTT 數據集上比 Google 的 VideoPrism-G 高出 10%,在 ActivityNet 數據集上高出 3%。具備先進的零樣本檢索能力,超越現有模型在理解和處理視覺內容上的表現。其多功能性還包括跨模態任務,如音頻到視頻和圖像到視頻。該模型通過重新排序模型實現了增強的時間定位,確保更精確的搜索結果,展示了在多種模態下令人印象深刻的感知推理能力。
除了Twelve Labs之外,谷歌以及微軟和亞馬遜也推出了能夠提供 API 級、人工智能驅動的服務的產品,這些服務可以識別視頻中的對象、位置和動作,并在幀級提取豐富的元數據。隨著這些技術的不斷進步,我們可以預見,未來在視頻理解領域的競爭將變得異常激烈。我們正站在一個由 AI 技術引領的新時代的門檻上。在這個時代,視頻不再僅僅是動態的視覺記錄,而是智能理解與深度學習技術融合的前沿。總之,Twelve Labs憑借其多模態視頻搜索引擎,正在改變我們處理和獲取視頻信息的方式,為數字世界帶來更為便捷、智能的體驗。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/131131.html