MuseTalk 是一個由騰訊團隊開發(fā)的實時高質(zhì)量音頻驅動唇形同步模型,旨在實現(xiàn)數(shù)字人視頻生成和虛擬人解決方案。該模型基于深度學習技術,能夠根據(jù)輸入音頻自動調(diào)整數(shù)字人物的面部口型,使面部動作與音頻高度同步,從而提升視頻的真實感和觀看體驗。MuseTalk 支持多種語言輸入,包括中文、英文和日文,并且能夠在 NVIDIA Tesla V100 GPU 上實現(xiàn) 30fps 以上的實時推理速度。
MuseTalk開源項目官網(wǎng)入口網(wǎng)址:https://github.com/TMElyralab/MuseTalk

MuseTalk 的核心技術基于 ft-mse-vae 潛在空間訓練,結合了 Stable Diffusion 的 U-Net 架構,通過多尺度特征融合和選擇性信息采樣策略,實現(xiàn)了高效的音頻-視覺特征融合和唇形同步。該模型不僅在視覺保真度和身份一致性方面表現(xiàn)出色,還在唇形同步精度方面優(yōu)于現(xiàn)有方法。此外,MuseTalk 支持多種應用場景,包括虛擬人視頻生成、視頻配音、數(shù)字人直播和在線教育等。
MuseTalk 由騰訊音樂娛樂實驗室開源,其代碼和模型可通過 GitHub 和 Hugging Face 平臺獲取,用戶可以通過 WebUI 界面進行操作,支持上傳音頻和參考視頻素材,進行參數(shù)調(diào)整和生成視頻。MuseTalk 的開源特性鼓勵社區(qū)合作,推動了數(shù)字內(nèi)容創(chuàng)作和虛擬人技術的發(fā)展。
MuseTalk 是一個強大的實時唇形同步模型,為數(shù)字人視頻生成和虛擬人技術提供了高效、高質(zhì)量的解決方案。