近日,當(dāng)下炙手可熱的快手宣布開源旗下明星產(chǎn)品可靈中一項(xiàng)重要技術(shù)項(xiàng)目LivePortrait。,該框架能夠準(zhǔn)確、實(shí)時(shí)地將驅(qū)動(dòng)視頻的表情、姿態(tài)遷移到靜態(tài)或動(dòng)態(tài)人像視頻上,生成極具表現(xiàn)力的視頻結(jié)果。如下動(dòng)圖所示:
LivePortrait的主要功能包括從單一圖像生成生動(dòng)動(dòng)畫、精確控制眼睛和嘴唇的動(dòng)作、處理多個(gè)人物肖像的無縫拼接、支持多風(fēng)格肖像、生成高分辨率動(dòng)畫等。這些功能不僅讓LivePortrait在動(dòng)畫生成上更加靈活多變,也為用戶提供了更多的創(chuàng)意空間。
并且,LivePortrait發(fā)布即可用,秉承快手風(fēng)格,論文、主頁(yè)、代碼一鍵三連。LivePortrait一經(jīng)開源,就得到了HuggingFace首席執(zhí)行官Clément Delangue的關(guān)注轉(zhuǎn)發(fā),首席戰(zhàn)略官 Thomas Wolf還親自體驗(yàn)了功能,厲害了!
同時(shí),LivePotrait獲得了開源社區(qū)的廣泛關(guān)注,短短一周多時(shí)間左右,在GitHub上總計(jì)收獲了6.4K Stars,550 Forks,140 Issues&PRs,獲得廣泛好評(píng),關(guān)注仍在持續(xù)增長(zhǎng)中:
方法介紹
和當(dāng)前主流基于擴(kuò)散模型的方法不同,LivePortrait探索并拓展了基于隱式關(guān)鍵點(diǎn)框架的潛力,從而平衡了模型計(jì)算效率和可控性。LivePortrait聚焦于更好的泛化性,可控性和實(shí)用的效率。為了提升生成能力和可控性,LivePortrait采用69M高質(zhì)量訓(xùn)練幀,視頻-圖片混合訓(xùn)練策略,升級(jí)網(wǎng)絡(luò)結(jié)構(gòu),并設(shè)計(jì)了更好的動(dòng)作建模和優(yōu)化方式。此外,LivePortrait將隱式關(guān)鍵點(diǎn)看成一種面部混合變形 (Blendshape) 的有效隱式表示,并基于此精心提出了貼合 (stitching) 和重定向 (retargeting) 模塊。這兩個(gè)模塊為輕量MLP網(wǎng)絡(luò),因此在提升可控性的同時(shí),計(jì)算成本可以忽略。即使是和一些已有的基于擴(kuò)散模型的方法比較,LivePortrait依舊很能打。同時(shí),在RTX4090 GPU上,LivePortrait的單幀生成速度能夠達(dá)到12.8ms,若經(jīng)過進(jìn)一步優(yōu)化,如TensorRT,預(yù)計(jì)能達(dá)10ms以內(nèi)!
LivePortrait的模型訓(xùn)練分為兩階段。第一階段為基礎(chǔ)模型訓(xùn)練,第二階段為貼合和重定向模塊訓(xùn)練。
第一階段:基礎(chǔ)模型訓(xùn)練
在第一階段模型訓(xùn)練中,LivePortrait對(duì)基于隱式點(diǎn)的框架,如Face Vid2vid[1],做了一系列改進(jìn),包括:
高質(zhì)量訓(xùn)練數(shù)據(jù)收集:LivePortrait采用了公開視頻數(shù)據(jù)集Voxceleb[2],MEAD[3],RAVDESS [4]和風(fēng)格化圖片數(shù)據(jù)集AAHQ[5]。此外,還使用了大規(guī)模4K分辨率的人像視頻,包含不同的表情和姿態(tài),200余小時(shí)的說話人像視頻,一個(gè)私有的數(shù)據(jù)集LightStage[6],以及一些風(fēng)格化的視頻和圖片。LivePortrait將長(zhǎng)視頻分割成少于30秒的片段,并確保每個(gè)片段只包含一個(gè)人。為了保證訓(xùn)練數(shù)據(jù)的質(zhì)量,LivePortrait使用快手自研的KVQ[7](快手自研的視頻質(zhì)量評(píng)估方法,能夠綜合感知視頻的質(zhì)量、內(nèi)容、場(chǎng)景、美學(xué)、編碼、音頻等特征,執(zhí)行多維度評(píng)價(jià))來過濾低質(zhì)量的視頻片段。總訓(xùn)練數(shù)據(jù)有69M視頻,包含18.9K身份和60K靜態(tài)風(fēng)格化人像。
視頻-圖像混合訓(xùn)練:僅使用真人人像視頻訓(xùn)練的模型對(duì)于真人人像表現(xiàn)良好,但對(duì)風(fēng)格化人像(例如動(dòng)漫)的泛化能力不足。風(fēng)格化的人像視頻是較為稀有的,LivePortrait從不到100個(gè)身份中收集了僅約1.3K視頻片段。相比之下,高質(zhì)量的風(fēng)格化人像圖片更為豐富,LivePortrait收集了大約60K身份互異的圖片,提供多樣身份信息。為了利用這兩種數(shù)據(jù)類型,LivePortrait將每張圖片視為一幀視頻片段,并同時(shí)在視頻和圖片上訓(xùn)練模型。這種混合訓(xùn)練提升了模型的泛化能力。
升級(jí)的網(wǎng)絡(luò)結(jié)構(gòu):LivePortrait將規(guī)范隱式關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò) (L),頭部姿態(tài)估計(jì)網(wǎng)絡(luò) (H) 和表情變形估計(jì)網(wǎng)絡(luò) (Δ) 統(tǒng)一為了一個(gè)單一模型 (M),并采用ConvNeXt-V2-Tiny[8]為其結(jié)構(gòu),從而直接估計(jì)輸入圖片的規(guī)范隱式關(guān)鍵點(diǎn),頭部姿態(tài)和表情變形。此外,受到face vid2vid相關(guān)工作啟發(fā),LivePortrait采用效果更優(yōu)的SPADE[9]的解碼器作為生成器 (G)。隱式特征 (fs) 在變形后被細(xì)致地輸入SPADE解碼器,其中隱式特征的每個(gè)通道作為語(yǔ)義圖來生成驅(qū)動(dòng)后的圖片。為了提升效率,LivePortrait還插入PixelShuffle[10]層作為 (G) 的最后一層,從而將分辨率由256提升為512。
更靈活的動(dòng)作變換建模:原始隱式關(guān)鍵點(diǎn)的計(jì)算建模方式忽視了縮放系數(shù),導(dǎo)致該縮放容易被學(xué)到表情系數(shù)里,使得訓(xùn)練難度變大。為了解決這個(gè)問題,LivePortrait在建模中引入了縮放因子。LivePortrait發(fā)現(xiàn)縮放正則投影會(huì)導(dǎo)致過于靈活的可學(xué)習(xí)表情系數(shù),造成跨身份驅(qū)動(dòng)時(shí)的紋理粘連。因此LivePortrait采用的變換是一種靈活性和驅(qū)動(dòng)性之間的折衷。
關(guān)鍵點(diǎn)引導(dǎo)的隱式關(guān)鍵點(diǎn)優(yōu)化:原始的隱式點(diǎn)框架似乎缺少生動(dòng)驅(qū)動(dòng)面部表情的能力,例如眨眼和眼球運(yùn)動(dòng)。具體來說,驅(qū)動(dòng)結(jié)果中人像的眼球方向和頭部朝向往往保持平行。LivePortrait將這些限制歸因于無監(jiān)督學(xué)習(xí)細(xì)微面部表情的困難。為了解決這個(gè)問題,LivePortrait引入了2D關(guān)鍵點(diǎn)來捕捉微表情,用關(guān)鍵點(diǎn)引導(dǎo)的損失 (Lguide)作為隱式關(guān)鍵點(diǎn)優(yōu)化的引導(dǎo)。
級(jí)聯(lián)損失函數(shù):LivePortrait采用了face vid2vid的隱式關(guān)鍵點(diǎn)不變損失 (LE),關(guān)鍵點(diǎn)先驗(yàn)損失 (LL),頭部姿態(tài)損失 (LH) 和變形先驗(yàn)損失 (LΔ)。為了進(jìn)一步提升紋理質(zhì)量,LivePortrait采用了感知和GAN損失,不僅對(duì)輸入圖的全局領(lǐng)域,面部和嘴部的局部領(lǐng)域也施加了這些損失,記為級(jí)聯(lián)感知損失 (LP,cascade) 和級(jí)聯(lián)GAN損失 (LG,cascade) 。面部和嘴部區(qū)域由2D語(yǔ)義關(guān)鍵點(diǎn)定義。LivePortrait也采用了人臉身份損失 (Lfaceid) 來保留參考圖片的身份。
第一階段的所有模塊為從頭訓(xùn)練,總的訓(xùn)練優(yōu)化函數(shù) (Lbase) 為以上損失項(xiàng)的加權(quán)和。
LivePortrait的相關(guān)技術(shù)點(diǎn),已在快手的諸多業(yè)務(wù)完成落地,包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年輕人的噗嘰APP等,并將探索新的落地方式,持續(xù)為用戶創(chuàng)造價(jià)值。此外,LivePortrait會(huì)基于可靈基礎(chǔ)模型,進(jìn)一步探索多模態(tài)驅(qū)動(dòng)的人像視頻生成,追求更高品質(zhì)的效果。
現(xiàn)在,無論你是想制作一段個(gè)性化的肖像視頻,還是想給老照片賦予新的生命,LivePortrait都能幫你輕松實(shí)現(xiàn)。這不僅僅是一個(gè)工具,更是一個(gè)讓創(chuàng)意無限擴(kuò)展的平臺(tái)。所以,別再讓你的照片沉睡在相冊(cè)里了,讓LivePortrait喚醒它們,讓它們動(dòng)起來,講述屬于它們自己的故事。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/131136.html
摘要:最近,這就是街舞第二季開播,又一次燃起了全民熱舞的風(fēng)潮。然而,真要自己跳起來,實(shí)際與想象之間,估計(jì)差了若干個(gè)羅志祥。系統(tǒng)映射結(jié)果展示對(duì)于系統(tǒng)的結(jié)果,研究人員表示還不完美。谷歌在和跳舞的結(jié)合上也花了心思。好了,先不說了,我要去跟學(xué)跳舞了。 最近,《這!就是街舞》第二季開播,又一次燃起了全民熱舞的風(fēng)潮。 剛開播沒多久,這個(gè)全程高能的節(jié)目,就在豆瓣上就得到了 9.6 的高分。舞者們?cè)诒荣愔芯?..
摘要:而另一款網(wǎng)紅產(chǎn)品抖音,也在去年底上線過一個(gè)尬舞機(jī)的音樂體感游戲現(xiàn)在成了隱藏功能游戲開始后,隨著音樂會(huì)給出不同的動(dòng)作提示,用戶按照提示擺出正確動(dòng)作即可得分。 如今說到體感游戲,大家一定都不陌生,比如微軟的 Kinect、任天堂的 Switch,都曾是游戲業(yè)的革命性產(chǎn)品。而另一款網(wǎng)紅產(chǎn)品—抖音,也在去年底上線過一個(gè)尬舞機(jī)的音樂體感游戲(現(xiàn)在成了隱藏功能): showImg(https://...
摘要:人臉識(shí)別技術(shù)所獨(dú)具的活性判別能力保證了他人無法以非活性的照片木偶蠟像來欺騙識(shí)別系統(tǒng)。人臉識(shí)別技術(shù)所采用的依據(jù)是人臉照片或?qū)崟r(shí)攝取的人臉圖像,因而無疑是最容易獲得的。 人臉識(shí)別是近年來模式識(shí)別、圖像處理、機(jī)器視覺、神經(jīng)網(wǎng)絡(luò)以及認(rèn)知科學(xué)等領(lǐng)域研究的熱點(diǎn)課題之一,被廣泛應(yīng)用于公共安全(罪犯識(shí)別等)...
摘要:阿里巴巴集團(tuán)安全部今年在直播管控中的特色在于大量采用人工智能和深度學(xué)習(xí)等技術(shù),配合優(yōu)化后的高性能多媒體計(jì)算集群,大幅度降低人工審核成本的同時(shí),提升了對(duì)內(nèi)容風(fēng)險(xiǎn)的防控能力。 阿里巴巴直播內(nèi)容風(fēng)險(xiǎn)防控中的AI力量 直播作為近來新興的互動(dòng)形態(tài)和今年阿里巴巴雙十一的一大亮點(diǎn),其內(nèi)容風(fēng)險(xiǎn)監(jiān)控是一個(gè)全新的課題,技術(shù)的挑戰(zhàn)非常大,管控難點(diǎn)主要包括業(yè)界缺乏成熟方案和標(biāo)準(zhǔn)、主播行為、直播內(nèi)容不可控、峰值...
閱讀 2887·2025-01-02 11:25
閱讀 427·2024-12-10 11:51
閱讀 424·2024-11-07 17:59
閱讀 380·2024-09-27 16:59
閱讀 517·2024-09-23 10:37
閱讀 600·2024-09-14 16:58
閱讀 375·2024-09-14 16:58
閱讀 593·2024-08-29 18:47