4 個小時課程!不限基礎(chǔ)和語言!免費學(xué)習(xí)!專門為開發(fā)者量身打造的『從 0 到 1 入門 AI 大模型』
開源大模型平臺
科大訊飛推出的新一代認(rèn)知智能大模型
知識庫大模型,智能客服,智能問答,AI寫作
IndexTTS2 是一個突破性的自回歸語音合成模型,旨在解決大規(guī)模文本到語音(TTS)系統(tǒng)在精確時長控制和情感表達(dá)方面的挑戰(zhàn)。
專注于語言模型(LLM)SQL 能力評測的專業(yè)平臺,構(gòu)建了全面且具實踐價值的 SQL 能力排行榜(SCALE),為開發(fā)者、數(shù)據(jù)庫管理員及企業(yè)技術(shù)決策者提供關(guān)鍵參考
美團(tuán)自主研發(fā)的生成式AI大模型,模型具備強(qiáng)大的多模態(tài)能力,能處理文本、圖像等多種數(shù)據(jù)類型
Kimi K2 是北京月之暗面科技有限公司于 2025 年 7 月 11 日推出的開源大語言模型。
MMAudio是一個多模態(tài)音頻生成模型,旨在通過視頻和/或文本輸入生成高質(zhì)量、同步的音頻。
Veo 3 是 Google DeepMind 推出的新一代視頻生成模型,專為電影制作人、故事講述者和創(chuàng)意工作者設(shè)計,將視頻與音頻無縫結(jié)合,開啟生成式 AI 的創(chuàng)作新篇章。
字節(jié)跳動開發(fā)的AI視頻生成模型,模型能夠根據(jù)文本或圖像生成高質(zhì)量的視頻內(nèi)容,支持多鏡頭切換、穩(wěn)定運動軌跡和風(fēng)格化控制,適用于創(chuàng)意內(nèi)容創(chuàng)作、廣告制作和教育演示等場景。
Hallo 是一個由復(fù)旦大學(xué)(Fudan University)開發(fā)的開源項目,專注于音頻驅(qū)動的視覺合成技術(shù),特別是用于人像動畫生成。
MuseTalk 是一個實時高質(zhì)量音頻驅(qū)動唇形同步模型,旨在解決高分辨率、身份一致性和準(zhǔn)確唇形同步的面部視覺配音挑戰(zhàn),尤其適用于實時應(yīng)用如直播視頻 。
SadTalker 是一個基于單張圖像和音頻生成說話人臉視頻的模型,其核心功能是通過音頻輸入使靜態(tài)圖片中的圖像動起來,并生成說話的虛擬人物。
一款高性能文本到語音(TTS)系統(tǒng),基于流匹配的非自回歸生成方法,結(jié)合了擴(kuò)散變換器(DiT)技術(shù)。
Seed-TTS 是由字節(jié)跳動開發(fā)的高級文本到語音(TTS)模型系列,旨在生成高質(zhì)量、幾乎無法與人類語音區(qū)分的語音。
MiniMind項目旨在從零開始訓(xùn)練一個輕量級語言模型(LLM),并提供完整的訓(xùn)練、微調(diào)、推理和部署流程。
Qwen-Image 是阿里通義千問團(tuán)隊于2025年8月5日開源的200億參數(shù)圖像生成基礎(chǔ)模型,采用MMDiT架構(gòu),專為復(fù)雜文本渲染與高精度圖像生成設(shè)計。
gpt-oss 是 OpenAI 開發(fā)的開源模型,支持推理、代理任務(wù)和開發(fā)者使用場景。
Moondream 是一個開源的輕量級視覺語言模型,由開發(fā)者 vikhyatk 推出,旨在提供高效、靈活的圖像理解和文本生成能力。
“林哥的大模型野榜”是一個專注于中國用戶需求的大模型產(chǎn)品排行榜,旨在幫助用戶更好地了解和選擇適合的大模型產(chǎn)品。
元象大模型XChat是一款由元象科技自主研發(fā)的高性能通用人工智能大模型,旨在降低開發(fā)門檻與推理成本,滿足多任務(wù)需求。
訊飛星辰MaaS平臺是科大訊飛推出的一款一站式大模型定制精調(diào)平臺,旨在為開發(fā)者和企業(yè)用戶提供低門檻、全棧式的大模型應(yīng)用開發(fā)服務(wù)。
達(dá)醫(yī)智影是阿里巴巴達(dá)摩院醫(yī)療AI實驗室研發(fā)的一款創(chuàng)新性AI醫(yī)療工具,專注于CT智能讀片和癌癥篩查領(lǐng)域。
53AI企業(yè)大模型應(yīng)用平臺是大中型企業(yè)廣泛采用大模型落地應(yīng)用平臺,系統(tǒng)實現(xiàn)對全部主流大模型的統(tǒng)一納管,包括DeepSeeK、OpenAI、Azure OpenAI、文心一言、訊飛星火、零一、LlaMa等。
FaceChain 是一個基于深度學(xué)習(xí)技術(shù)的個性化數(shù)字形象生成工具,利用生成對抗網(wǎng)絡(luò)(GANs)和 Stable Diffusion 模型,通過少量照片生成高度個性化的數(shù)字形象。
Whisper 是 OpenAI 開發(fā)的一款強(qiáng)大的語音識別模型,具有多語言支持、語音翻譯和語言識別等多功能能力。
DDColor 是一種由阿里巴巴達(dá)摩院研發(fā)的先進(jìn)圖像上色技術(shù),旨在通過深度學(xué)習(xí)技術(shù)將黑白或灰度圖像轉(zhuǎn)換為逼真且生動的彩色圖像。
LivePortrait是一款由快手科技與中國科學(xué)技術(shù)大學(xué)、復(fù)旦大學(xué)共同研發(fā)的AI驅(qū)動肖像動畫工具,旨在將靜態(tài)肖像圖像轉(zhuǎn)化為逼真的動態(tài)視頻。
EchoMimic 是螞蟻集團(tuán)開發(fā)的一款基于音頻驅(qū)動的肖像動畫生成工具,旨在通過音頻和面部標(biāo)志點生成逼真的動態(tài)視頻。
CosyVoice是一款由阿里巴巴通義實驗室開發(fā)并開源的多語言語音生成模型,專注于自然語音生成、音色克隆和情感控制。
AnchorCrafter 是由中國科學(xué)院與騰訊聯(lián)合推出的一項創(chuàng)新技術(shù),旨在通過人工智能生成高保真度的產(chǎn)品推廣視頻。
Goku視頻生成模型是由中國香港大學(xué)與字節(jié)跳動聯(lián)合推出的一款A(yù)I視頻生成工具,能夠?qū)崿F(xiàn)文本到視頻、圖像到視頻以及文本到圖像等多種生成方式。
友鏈申請免責(zé)聲明廣告合作關(guān)于本站