MultiTalk
MultiTalk 是一個(gè)音頻驅(qū)動(dòng)的多人物對(duì)話視頻生成系統(tǒng),支持多人對(duì)話、互動(dòng)控制、卡通角色生成、唱歌等。
標(biāo)簽:項(xiàng)目框架MultiTalkMultitalk 是一個(gè)由多個(gè)人物驅(qū)動(dòng)的音頻驅(qū)動(dòng)多人物對(duì)話視頻生成系統(tǒng)。它能夠根據(jù)音頻輸入、參考圖像和提示生成包含互動(dòng)、對(duì)話、唱歌和卡通角色的視頻內(nèi)容。該系統(tǒng)支持單人或多人物生成、交互式虛擬人物控制、卡通角色生成、分辨率靈活性(480p 和 720p)以及長(zhǎng)達(dá) 15 秒的視頻生成。
- MultiTalk官網(wǎng)入口網(wǎng)址:https://meigen-ai.github.io/multi-talk/
- MultiTalk開源項(xiàng)目地址:https://github.com/MeiGen-AI/MultiTalk

Multitalk 的核心創(chuàng)新在于其音頻驅(qū)動(dòng)的多人物對(duì)話視頻生成框架,能夠根據(jù)多路音頻輸入、參考圖像和提示生成符合音頻內(nèi)容的唇部動(dòng)作和互動(dòng)視頻。該系統(tǒng)支持多種優(yōu)化技術(shù),如 INT8 量化、SageAttention、TeaCache 加速、多 GPU 推理、低 VRAM 推理等,以提升性能和效率。
Multitalk 的開發(fā)團(tuán)隊(duì)由多位研究人員組成,包括 Zhe Kong、Feng Gao、Yong Zhang 等,他們?cè)谌斯ぶ悄堋⒂?jì)算機(jī)視覺(jué)和多媒體生成領(lǐng)域具有深厚的專業(yè)背景。該項(xiàng)目已發(fā)布在 Hugging Face、GitHub 和 Replicate 平臺(tái),并提供了詳細(xì)的模型下載、推理代碼和使用示例。
Multitalk 的目標(biāo)是推動(dòng)多人物對(duì)話視頻生成技術(shù)的發(fā)展,為虛擬人物、娛樂(lè)、教育和內(nèi)容創(chuàng)作等領(lǐng)域提供強(qiáng)大的技術(shù)支持。其開源模型和工具的開放性,也為研究者和開發(fā)者提供了豐富的資源和靈活性。
Multitalk 的官方網(wǎng)站和項(xiàng)目頁(yè)面提供了詳細(xì)的文檔、模型下載、使用指南和社區(qū)支持,是研究和應(yīng)用該技術(shù)的重要資源。