DreamTalk是一款由清華大學(xué)、阿里巴巴集團(tuán)和華中科技大學(xué)聯(lián)合開發(fā)的創(chuàng)新人工智能技術(shù),專注于通過擴(kuò)散模型將人物照片轉(zhuǎn)化為具有動(dòng)態(tài)說話效果的虛擬形象。該項(xiàng)目的核心目標(biāo)是創(chuàng)建一個(gè)框架,使人物頭像能夠模仿不同聲音,實(shí)現(xiàn)逼真的虛擬角色表情和動(dòng)作,適用于影視制作和人機(jī)交互場(chǎng)景。
- DreamTalk官網(wǎng)入口網(wǎng)址:https://dreamtalk-project.github.io/
- DreamTalk開源項(xiàng)目地址:https://github.com/ali-vilab/dreamtalk

DreamTalk的技術(shù)架構(gòu)由三個(gè)關(guān)鍵組件構(gòu)成:降噪網(wǎng)絡(luò)、風(fēng)格感知唇部專家和風(fēng)格預(yù)測(cè)器。降噪網(wǎng)絡(luò)通過擴(kuò)散模型去除噪聲,生成高質(zhì)量的面部動(dòng)畫;風(fēng)格感知唇部專家分析說話風(fēng)格,確保嘴唇動(dòng)作自然且符合整體風(fēng)格;風(fēng)格預(yù)測(cè)器則直接從音頻預(yù)測(cè)目標(biāo)表情,減少對(duì)外部表情參考的需求。這種技術(shù)組合使得DreamTalk能夠生成具有豐富表情和準(zhǔn)確唇同步的逼真說話頭像,支持多種語言、歌曲、嘈雜音頻以及非領(lǐng)域肖像。
DreamTalk的主要功能包括:
- 多語言支持:支持中文、日語、法語、德語等多種語言的情感表達(dá)。
- 跨時(shí)空對(duì)話生成:能夠生成不同情感狀態(tài)的動(dòng)畫,如憤怒的達(dá)芬奇或快樂的蒙娜麗莎。
- 高質(zhì)量動(dòng)畫生成:生成的視頻質(zhì)量高,表情真實(shí)且富有感染力。
- 廣泛的應(yīng)用場(chǎng)景:適用于影視制作、教育、廣告、娛樂等領(lǐng)域,甚至可以用于跨文化對(duì)話和語言學(xué)習(xí)。
該項(xiàng)目還具有開源特性,開發(fā)者可以通過GitHub獲取代碼和相關(guān)資源,進(jìn)一步探索和優(yōu)化技術(shù)。
DreamTalk的開源不僅推動(dòng)了語音合成技術(shù)的發(fā)展,也為研究人員和開發(fā)者提供了更多可能性。
DreamTalk通過先進(jìn)的擴(kuò)散模型和創(chuàng)新的技術(shù)架構(gòu),實(shí)現(xiàn)了將人物照片轉(zhuǎn)化為動(dòng)態(tài)說話頭像的突破性成果,為人工智能在影視制作、人機(jī)交互和跨文化交流等領(lǐng)域的應(yīng)用開辟了新的可能性。