快手開源LivePortrait：將照片變?yōu)樯鷦?dòng)視頻，實(shí)現(xiàn)表情姿態(tài)極速遷移

UCloud小助手發(fā)布于2024-07-18 15:30 / 521人閱讀

近日，當(dāng)下炙手可熱的快手宣布開源旗下明星產(chǎn)品可靈中一項(xiàng)重要技術(shù)項(xiàng)目LivePortrait。，該框架能夠準(zhǔn)確、實(shí)時(shí)地將驅(qū)動(dòng)視頻的表情、姿態(tài)遷移到靜態(tài)或動(dòng)態(tài)人像視頻上，生成極具表現(xiàn)力的視頻結(jié)果。如下動(dòng)圖所示：

LivePortrait的主要功能包括從單一圖像生成生動(dòng)動(dòng)畫、精確控制眼睛和嘴唇的動(dòng)作、處理多個(gè)人物肖像的無縫拼接、支持多風(fēng)格肖像、生成高分辨率動(dòng)畫等。這些功能不僅讓LivePortrait在動(dòng)畫生成上更加靈活多變，也為用戶提供了更多的創(chuàng)意空間。

并且，LivePortrait發(fā)布即可用，秉承快手風(fēng)格，論文、主頁(yè)、代碼一鍵三連。LivePortrait一經(jīng)開源，就得到了HuggingFace首席執(zhí)行官Clément Delangue的關(guān)注轉(zhuǎn)發(fā)，首席戰(zhàn)略官 Thomas Wolf還親自體驗(yàn)了功能，厲害了！

同時(shí)，LivePotrait獲得了開源社區(qū)的廣泛關(guān)注，短短一周多時(shí)間左右，在GitHub上總計(jì)收獲了6.4K Stars，550 Forks，140 Issues&PRs，獲得廣泛好評(píng)，關(guān)注仍在持續(xù)增長(zhǎng)中：

方法介紹

和當(dāng)前主流基于擴(kuò)散模型的方法不同，LivePortrait探索并拓展了基于隱式關(guān)鍵點(diǎn)框架的潛力，從而平衡了模型計(jì)算效率和可控性。LivePortrait聚焦于更好的泛化性，可控性和實(shí)用的效率。為了提升生成能力和可控性，LivePortrait采用69M高質(zhì)量訓(xùn)練幀，視頻-圖片混合訓(xùn)練策略，升級(jí)網(wǎng)絡(luò)結(jié)構(gòu)，并設(shè)計(jì)了更好的動(dòng)作建模和優(yōu)化方式。此外，LivePortrait將隱式關(guān)鍵點(diǎn)看成一種面部混合變形 (Blendshape) 的有效隱式表示，并基于此精心提出了貼合 (stitching) 和重定向 (retargeting) 模塊。這兩個(gè)模塊為輕量MLP網(wǎng)絡(luò)，因此在提升可控性的同時(shí)，計(jì)算成本可以忽略。即使是和一些已有的基于擴(kuò)散模型的方法比較，LivePortrait依舊很能打。同時(shí)，在RTX4090 GPU上，LivePortrait的單幀生成速度能夠達(dá)到12.8ms，若經(jīng)過進(jìn)一步優(yōu)化，如TensorRT，預(yù)計(jì)能達(dá)10ms以內(nèi)！

LivePortrait的模型訓(xùn)練分為兩階段。第一階段為基礎(chǔ)模型訓(xùn)練，第二階段為貼合和重定向模塊訓(xùn)練。

第一階段：基礎(chǔ)模型訓(xùn)練

在第一階段模型訓(xùn)練中，LivePortrait對(duì)基于隱式點(diǎn)的框架，如Face Vid2vid[1]，做了一系列改進(jìn)，包括：

高質(zhì)量訓(xùn)練數(shù)據(jù)收集：LivePortrait采用了公開視頻數(shù)據(jù)集Voxceleb[2]，MEAD[3]，RAVDESS [4]和風(fēng)格化圖片數(shù)據(jù)集AAHQ[5]。此外，還使用了大規(guī)模4K分辨率的人像視頻，包含不同的表情和姿態(tài)，200余小時(shí)的說話人像視頻，一個(gè)私有的數(shù)據(jù)集LightStage[6]，以及一些風(fēng)格化的視頻和圖片。LivePortrait將長(zhǎng)視頻分割成少于30秒的片段，并確保每個(gè)片段只包含一個(gè)人。為了保證訓(xùn)練數(shù)據(jù)的質(zhì)量，LivePortrait使用快手自研的KVQ[7]（快手自研的視頻質(zhì)量評(píng)估方法，能夠綜合感知視頻的質(zhì)量、內(nèi)容、場(chǎng)景、美學(xué)、編碼、音頻等特征，執(zhí)行多維度評(píng)價(jià)）來過濾低質(zhì)量的視頻片段。總訓(xùn)練數(shù)據(jù)有69M視頻，包含18.9K身份和60K靜態(tài)風(fēng)格化人像。

視頻-圖像混合訓(xùn)練：僅使用真人人像視頻訓(xùn)練的模型對(duì)于真人人像表現(xiàn)良好，但對(duì)風(fēng)格化人像（例如動(dòng)漫）的泛化能力不足。風(fēng)格化的人像視頻是較為稀有的，LivePortrait從不到100個(gè)身份中收集了僅約1.3K視頻片段。相比之下，高質(zhì)量的風(fēng)格化人像圖片更為豐富，LivePortrait收集了大約60K身份互異的圖片，提供多樣身份信息。為了利用這兩種數(shù)據(jù)類型，LivePortrait將每張圖片視為一幀視頻片段，并同時(shí)在視頻和圖片上訓(xùn)練模型。這種混合訓(xùn)練提升了模型的泛化能力。

升級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)：LivePortrait將規(guī)范隱式關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò) (L)，頭部姿態(tài)估計(jì)網(wǎng)絡(luò) (H) 和表情變形估計(jì)網(wǎng)絡(luò) (Δ) 統(tǒng)一為了一個(gè)單一模型 (M)，并采用ConvNeXt-V2-Tiny[8]為其結(jié)構(gòu)，從而直接估計(jì)輸入圖片的規(guī)范隱式關(guān)鍵點(diǎn)，頭部姿態(tài)和表情變形。此外，受到face vid2vid相關(guān)工作啟發(fā)，LivePortrait采用效果更優(yōu)的SPADE[9]的解碼器作為生成器 (G)。隱式特征 (fs) 在變形后被細(xì)致地輸入SPADE解碼器，其中隱式特征的每個(gè)通道作為語(yǔ)義圖來生成驅(qū)動(dòng)后的圖片。為了提升效率，LivePortrait還插入PixelShuffle[10]層作為 (G) 的最后一層，從而將分辨率由256提升為512。

更靈活的動(dòng)作變換建模：原始隱式關(guān)鍵點(diǎn)的計(jì)算建模方式忽視了縮放系數(shù)，導(dǎo)致該縮放容易被學(xué)到表情系數(shù)里，使得訓(xùn)練難度變大。為了解決這個(gè)問題，LivePortrait在建模中引入了縮放因子。LivePortrait發(fā)現(xiàn)縮放正則投影會(huì)導(dǎo)致過于靈活的可學(xué)習(xí)表情系數(shù)，造成跨身份驅(qū)動(dòng)時(shí)的紋理粘連。因此LivePortrait采用的變換是一種靈活性和驅(qū)動(dòng)性之間的折衷。

關(guān)鍵點(diǎn)引導(dǎo)的隱式關(guān)鍵點(diǎn)優(yōu)化：原始的隱式點(diǎn)框架似乎缺少生動(dòng)驅(qū)動(dòng)面部表情的能力，例如眨眼和眼球運(yùn)動(dòng)。具體來說，驅(qū)動(dòng)結(jié)果中人像的眼球方向和頭部朝向往往保持平行。LivePortrait將這些限制歸因于無監(jiān)督學(xué)習(xí)細(xì)微面部表情的困難。為了解決這個(gè)問題，LivePortrait引入了2D關(guān)鍵點(diǎn)來捕捉微表情，用關(guān)鍵點(diǎn)引導(dǎo)的損失 (Lguide)作為隱式關(guān)鍵點(diǎn)優(yōu)化的引導(dǎo)。

級(jí)聯(lián)損失函數(shù)：LivePortrait采用了face vid2vid的隱式關(guān)鍵點(diǎn)不變損失 (LE)，關(guān)鍵點(diǎn)先驗(yàn)損失 (LL)，頭部姿態(tài)損失 (LH) 和變形先驗(yàn)損失 (LΔ)。為了進(jìn)一步提升紋理質(zhì)量，LivePortrait采用了感知和GAN損失，不僅對(duì)輸入圖的全局領(lǐng)域，面部和嘴部的局部領(lǐng)域也施加了這些損失，記為級(jí)聯(lián)感知損失 (LP,cascade) 和級(jí)聯(lián)GAN損失 (LG,cascade) 。面部和嘴部區(qū)域由2D語(yǔ)義關(guān)鍵點(diǎn)定義。LivePortrait也采用了人臉身份損失 (Lfaceid) 來保留參考圖片的身份。

第一階段的所有模塊為從頭訓(xùn)練，總的訓(xùn)練優(yōu)化函數(shù) (Lbase) 為以上損失項(xiàng)的加權(quán)和。

第二階段：貼合和重定向模塊訓(xùn)練

LivePortrait將隱式關(guān)鍵點(diǎn)可以看成一種隱式混合變形，并發(fā)現(xiàn)這種組合只需借助一個(gè)輕量的MLP便可被較好地學(xué)習(xí)，計(jì)算消耗可忽略?？紤]到實(shí)際需求，LivePortrait設(shè)計(jì)了一個(gè)貼合模塊、眼部重定向模塊和嘴部重定向模塊。當(dāng)參考人像被裁切時(shí)，驅(qū)動(dòng)后的人像會(huì)從裁圖空間被反貼回原始圖像空間，貼合模塊的加入是為了避免反貼過程中出現(xiàn)像素錯(cuò)位，比如肩膀區(qū)域。由此，LivePortrait能對(duì)更大的圖片尺寸或多人合照進(jìn)行動(dòng)作驅(qū)動(dòng)。眼部重定向模塊旨在解決跨身份驅(qū)動(dòng)時(shí)眼睛閉合不完全的問題，尤其是當(dāng)眼睛小的人像驅(qū)動(dòng)眼睛大的人像時(shí)。嘴部重定向模塊的設(shè)計(jì)思想類似于眼部重定向模塊，它通過將參考圖片的嘴部驅(qū)動(dòng)為閉合狀態(tài)來規(guī)范輸入，從而更好地進(jìn)行驅(qū)動(dòng)。

貼合模塊：在訓(xùn)練過程中，貼合模塊 (S) 的輸入為參考圖的隱式關(guān)鍵點(diǎn) (xs) 和另一身份驅(qū)動(dòng)幀的隱式關(guān)鍵點(diǎn) (xd)，并估計(jì)驅(qū)動(dòng)隱式關(guān)鍵點(diǎn) (xd) 的表情變化量 (Δst)?？梢钥吹?，和第一階段不同，LivePortrait采用跨身份的動(dòng)作替代同身份的動(dòng)作來增加訓(xùn)練難度，旨在使貼合模塊具有更好的泛化性。接著，驅(qū)動(dòng)隱式關(guān)鍵點(diǎn) (xd) 被更新，對(duì)應(yīng)的驅(qū)動(dòng)輸出為 (Ip,st) 。LivePortrait在這一階段也同時(shí)輸出自重建圖片 (Ip,recon)。最后，貼合模塊的損失函數(shù)(Lst) 計(jì)算兩者肩膀區(qū)域的像素一致?lián)p失以及貼合變化量的正則損失。

眼部和嘴部重定向模塊：眼部重定向模塊 (Reyes) 的輸入為參考圖隱式關(guān)鍵點(diǎn) (xs)，參考圖眼部張開條件元組和一個(gè)隨機(jī)的驅(qū)動(dòng)眼部張開系數(shù)，由此估計(jì)驅(qū)動(dòng)關(guān)鍵點(diǎn)的變形變化量 (Δeyes)。眼部張開條件元組表示眼部張開比例，越大表示眼部張開程度越大。類似的，嘴部重定向模塊 (Rlip) 的輸入為參考圖隱式關(guān)鍵點(diǎn) (xs)，參考圖嘴部張開條件系數(shù)和一個(gè)隨機(jī)的驅(qū)動(dòng)嘴部張開系數(shù)，并由此估計(jì)驅(qū)動(dòng)關(guān)鍵點(diǎn)的變化量 (Δlip)。接著，驅(qū)動(dòng)關(guān)鍵點(diǎn) (xd) 分別被眼部和嘴部對(duì)應(yīng)的變形變化量更新，對(duì)應(yīng)的驅(qū)動(dòng)輸出為 (Ip,eyes) 和 (Ip,lip) 。最后，眼部和嘴部重定向模塊的目標(biāo)函數(shù)分別為 (Leyes) 和 (Llip)，分別計(jì)算眼部和嘴部區(qū)域的像素一致性損失，眼部和嘴部變化量的正則損失，以及隨機(jī)驅(qū)動(dòng)系數(shù)與驅(qū)動(dòng)輸出的張開條件系數(shù)之間的損失。眼部和嘴部的變化量 (Δeyes) 和 (Δlip) 是相互獨(dú)立的，因此在推理階段，它們可以被線性相加并更新驅(qū)動(dòng)隱式關(guān)鍵點(diǎn)。

總結(jié)以及未來前景

LivePortrait的相關(guān)技術(shù)點(diǎn)，已在快手的諸多業(yè)務(wù)完成落地，包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年輕人的噗嘰APP等，并將探索新的落地方式，持續(xù)為用戶創(chuàng)造價(jià)值。此外，LivePortrait會(huì)基于可靈基礎(chǔ)模型，進(jìn)一步探索多模態(tài)驅(qū)動(dòng)的人像視頻生成，追求更高品質(zhì)的效果。

現(xiàn)在，無論你是想制作一段個(gè)性化的肖像視頻，還是想給老照片賦予新的生命，LivePortrait都能幫你輕松實(shí)現(xiàn)。這不僅僅是一個(gè)工具，更是一個(gè)讓創(chuàng)意無限擴(kuò)展的平臺(tái)。所以，別再讓你的照片沉睡在相冊(cè)里了，讓LivePortrait喚醒它們，讓它們動(dòng)起來，講述屬于它們自己的故事。

GPU云服務(wù)器云服務(wù)器 linux將磁盤變?yōu)槁惚P 快手照片怎么翻頁(yè) 如何通過阿里云服務(wù)器將本地硬盤變?yōu)樵票P java加表情包實(shí)現(xiàn)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/131136.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

UCloud小助手

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

2025年U大使新年軟文推廣限時(shí)活動(dòng)

閱讀 2887·2025-01-02 11:25
U大使獎(jiǎng)勵(lì)規(guī)則全新發(fā)布

閱讀 427·2024-12-10 11:51
服務(wù)器常用端口大全

閱讀 424·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術(shù)官M(fèi)ira 離職

閱讀 380·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 517·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

閱讀 600·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

閱讀 375·2024-09-14 16:58
網(wǎng)頁(yè)開發(fā)助手——自動(dòng)編寫運(yùn)行代碼

閱讀 593·2024-08-29 18:47

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

快手開源LivePortrait：將照片變?yōu)樯鷦?dòng)視頻，實(shí)現(xiàn)表情姿態(tài)極速遷移

相關(guān)文章

吃了這些數(shù)據(jù)集和模型，跟 AI 學(xué)跳舞，做 TensorFlowBoys

**用 Python+openpose 實(shí)現(xiàn)抖音尬舞機(jī)**

淺談人臉識(shí)別技術(shù)的方法和應(yīng)用

阿里巴巴直播內(nèi)容風(fēng)險(xiǎn)防控中的AI力量

發(fā)表評(píng)論

0條評(píng)論

UCloud小助手

男|高級(jí)講師

TA的文章

2025年U大使新年軟文推廣限時(shí)活動(dòng)

U大使獎(jiǎng)勵(lì)規(guī)則全新發(fā)布

服務(wù)器常用端口大全

又來!OpenAI 宮斗大戲曝光,首席技術(shù)官M(fèi)ira 離職

2.4K star的GOT-OCR2.0：端到端OCR 模型

Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

網(wǎng)頁(yè)開發(fā)助手——自動(dòng)編寫運(yùn)行代碼

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

快手開源LivePortrait：將照片變?yōu)樯鷦?dòng)視頻，實(shí)現(xiàn)表情姿態(tài)極速遷移

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

快手開源LivePortrait：將照片變?yōu)樯鷦?dòng)視頻，實(shí)現(xiàn)表情姿態(tài)極速遷移