AnchorCrafter 是由中國(guó)科學(xué)院與騰訊聯(lián)合推出的一款基于擴(kuò)散模型的 AI 虛擬主播帶貨視頻制作系統(tǒng),旨在通過人-物交互(HOI)技術(shù)生成高保真度的產(chǎn)品推廣視頻。該系統(tǒng)特別適用于電商、廣告和內(nèi)容創(chuàng)作領(lǐng)域,能夠顯著提升視頻制作效率和質(zhì)量,同時(shí)降低制作成本。
AnchorCrafter官網(wǎng)入口網(wǎng)址:https://cangcz.github.io/Anchor-Crafter/
AnchorCrafter開源項(xiàng)目地址:https://github.com/cangcz/AnchorCrafter

技術(shù)原理與創(chuàng)新
AnchorCrafter 基于擴(kuò)散模型架構(gòu),使用擴(kuò)散 UNet 和變分自編碼器(VAE)處理視頻幀,將視頻內(nèi)容編碼到潛在空間,并從噪聲中重建高質(zhì)量的視頻幀。其核心技術(shù)包括:
- HOI-外觀感知(HOI-appearance perception) :通過多視角特征融合,增強(qiáng)模型對(duì)物體形狀和紋理的識(shí)別能力,實(shí)現(xiàn)人物與物體外觀的分離。
- HOI-動(dòng)作注入(HOI-motion injection) :通過克服對(duì)象軌跡條件化和相互遮擋管理的挑戰(zhàn),實(shí)現(xiàn)復(fù)雜的人物-物體交互。
- HOI 區(qū)域重加權(quán)損失(HOI region reweighted loss) :增強(qiáng)對(duì)物體細(xì)節(jié)的學(xué)習(xí),確保生成視頻中人物外觀和動(dòng)作的一致性。
核心功能
- 高保真度視頻生成:AnchorCrafter 能夠生成自然流暢且高度真實(shí)的視頻,人物和物體的動(dòng)作細(xì)節(jié)逼真,視覺效果優(yōu)于現(xiàn)有方法。
- 人-物交互控制:用戶可以精確控制虛擬主播的動(dòng)作和與商品的交互方式,如拿起、展示等,實(shí)現(xiàn)高度自然的互動(dòng)效果。
- 多視角對(duì)象特征融合:通過參考多個(gè)視角的對(duì)象圖像提取物體的外觀特征,增強(qiáng)模型對(duì)物體形狀和紋理的識(shí)別能力。
- 高效訓(xùn)練數(shù)據(jù)利用:盡管訓(xùn)練數(shù)據(jù)集相對(duì)較小,但系統(tǒng)通過優(yōu)化訓(xùn)練策略,有效提升了生成視頻的質(zhì)量。
應(yīng)用場(chǎng)景
AnchorCrafter 主要應(yīng)用于電子商務(wù)、在線廣告和內(nèi)容創(chuàng)作等領(lǐng)域。其核心優(yōu)勢(shì)在于:
- 電商帶貨:通過生成自然流暢的主播風(fēng)格視頻,提升產(chǎn)品展示效果,吸引消費(fèi)者注意力,提高轉(zhuǎn)化率。
- 廣告制作:快速生成高質(zhì)量的廣告視頻,降低制作成本,提高廣告投放效率。
- 內(nèi)容創(chuàng)作:為內(nèi)容創(chuàng)作者提供強(qiáng)大的工具,輕松制作互動(dòng)性強(qiáng)的視頻內(nèi)容。
使用流程
- 訪問官網(wǎng):用戶可通過官網(wǎng)(https://cangcz.github.io/Anchor-Crafter/ )了解系統(tǒng)功能并進(jìn)行試用。
- 上傳素材:準(zhǔn)備目標(biāo)人物和商品的圖片或視頻素材,并上傳至系統(tǒng)界面。
- 設(shè)置交互場(chǎng)景:根據(jù)需求設(shè)計(jì)人物與商品的交互場(chǎng)景,并調(diào)整相關(guān)參數(shù)。
- 生成視頻:?jiǎn)?dòng)生成過程,系統(tǒng)將自動(dòng)生成高質(zhì)量的視頻內(nèi)容。
- 后期編輯:用戶可對(duì)生成的視頻進(jìn)行預(yù)覽和后期編輯,確保最終效果符合預(yù)期。
AnchorCrafter 是一個(gè)集成了先進(jìn) AI 技術(shù)的虛擬主播帶貨視頻制作工具,通過人-物交互技術(shù)實(shí)現(xiàn)了高保真度和可控性的視頻生成。其強(qiáng)大的功能和廣泛的應(yīng)用場(chǎng)景使其成為電商、廣告和內(nèi)容創(chuàng)作領(lǐng)域的有力工具。