LeRobot 是由 Hugging Face 推出的一個(gè)開源機(jī)器人項(xiàng)目,旨在通過提供模型、數(shù)據(jù)集和工具,降低機(jī)器人開發(fā)的門檻,使更多人能夠參與和受益于機(jī)器人技術(shù)的發(fā)展。
一鍵將音視頻轉(zhuǎn)化為小紅書/公眾號(hào)/知識(shí)筆記/思維導(dǎo)圖/視頻字幕等各種風(fēng)格的文檔。
PPTist 是一個(gè)基于 Web 的演示文稿(幻燈片)應(yīng)用,旨在為用戶提供類似于 Microsoft Office PowerPoint 的功能。
opencode 是一個(gè)專為終端設(shè)計(jì)的 AI 編程代理(AI coding agent),旨在提供類似 Claude Code 的功能。支持 OpenAI、Google、Anthropic 等模型,甚至本地模型。
MultiTalk 是一個(gè)音頻驅(qū)動(dòng)的多人物對(duì)話視頻生成系統(tǒng),支持多人對(duì)話、互動(dòng)控制、卡通角色生成、唱歌等。
Edge-TTS 是一個(gè)基于微軟 Azure 文本轉(zhuǎn)語音(TTS)功能的 Python 庫,旨在為開發(fā)者提供簡(jiǎn)單、高效、免費(fèi)的文本轉(zhuǎn)語音解決方案。
GPT-SoVITS 是一款創(chuàng)新的開源聲音克隆工具,它將 GPT 模型與 SoVITS 技術(shù)相結(jié)合,能夠在樣本數(shù)據(jù)極少的情況下,實(shí)現(xiàn)高質(zhì)量的語音克隆和文本到語音轉(zhuǎn)換(TTS)。
Fish Speech 是一個(gè)由 Fish Audio 團(tuán)隊(duì)開發(fā)的文本轉(zhuǎn)語音(TTS)技術(shù),旨在利用先進(jìn)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)將文字轉(zhuǎn)換為自然流暢的語音輸出。
百度飛槳(PaddlePaddle)平臺(tái)上的一個(gè)開源語音處理工具包,旨在為語音識(shí)別、語音合成、語音翻譯、語音識(shí)別、語音分類、語音標(biāo)點(diǎn)恢復(fù)、語音情感分析等任務(wù)提供全面的解決方案。
Xinference 是一個(gè)功能強(qiáng)大且功能全面的分布式推理框架,旨在簡(jiǎn)化大語言模型(LLM)、語音識(shí)別、多模態(tài)模型等多種AI模型的推理任務(wù)。
DroidRun 是一個(gè)開源框架,旨在通過自然語言命令控制 Android 設(shè)備,實(shí)現(xiàn)移動(dòng)設(shè)備的自動(dòng)化操作。
Browser Use 是一款專為大語言模型設(shè)計(jì)的智能瀏覽器工具。它是將 AI 智能體與瀏覽器連接起來的最簡(jiǎn)單方式,通過提供強(qiáng)大且簡(jiǎn)單的瀏覽器自動(dòng)化接口,讓 AI 智能體能夠訪問各類網(wǎng)站。
olmOCR是一個(gè)用于將PDF、圖像等基于圖像的文檔轉(zhuǎn)換為可讀、純文本格式的工具。
一個(gè)完全本地運(yùn)行的 AI 助手,旨在替代傳統(tǒng)云端 AI 服務(wù),提供多種功能,包括智能網(wǎng)頁瀏覽、代碼編寫、任務(wù)規(guī)劃、語音交互等,支持多種編程語言和多語言支持。
MCP Feedback Enhanced 是一個(gè)基于 Model Context Protocol(MCP)的反饋驅(qū)動(dòng)開發(fā)工具,旨在通過用戶確認(rèn)而非推測(cè)操作,優(yōu)化AI交互流程,提升開發(fā)效率。
awesome-llm-apps 是一個(gè)開源項(xiàng)目集合,旨在展示如何利用先進(jìn)語言模型(如 RAG 和 AI 代理)構(gòu)建實(shí)用應(yīng)用程序。
Gemini CLI 是一個(gè)開源的 AI 代理工具,由 Google 開發(fā),旨在將 Gemini 模型的強(qiáng)大功能直接集成到開發(fā)者的終端中 。
小智 AI 聊天機(jī)器人是一款基于開源硬件和開源軟件的智能對(duì)話設(shè)備,旨在幫助用戶入門 AI 硬件開發(fā)和 AI 模型應(yīng)用。
WeKnora是一款基于大語言模型的文檔理解與語義檢索框架,專為結(jié)構(gòu)復(fù)雜、內(nèi)容異構(gòu)的文檔場(chǎng)景而打造。
Coze Studio 是由字節(jié)跳動(dòng)開發(fā)并開源的一站式 AI Agent 開發(fā)工具,旨在為開發(fā)者提供從開發(fā)到部署的全方位支持,幫助他們快速構(gòu)建和調(diào)試智能體、應(yīng)用和工作流 。
PoloAPI 是一個(gè)專注于大模型 API 聚合服務(wù)的平臺(tái),旨在幫助開發(fā)者和企業(yè)快速接入和使用多種 AI 模型,如 Claude、OpenAI、Gemini 等。
EmotiVoice是一個(gè)強(qiáng)大的開源TTS引擎,完全免費(fèi),支持中英文雙語,包含2000多種不同的音色,以及特色的情感合成功能,支持合成包含快樂、興奮、悲傷、憤怒等廣泛情感的語音。
MotionAgent是一個(gè)能將用戶創(chuàng)造的劇本生成視頻的深度學(xué)習(xí)模型工具。用戶通過我們提供的工具組合,進(jìn)行劇本創(chuàng)作、劇照生成、圖片/視頻生成、背景音樂譜寫等工作。
DreamTalk是一個(gè)基于擴(kuò)散模型的音頻驅(qū)動(dòng)表達(dá)性頭部生成框架,核心功能是將靜態(tài)人物照片轉(zhuǎn)化為逼真、富有表現(xiàn)力的說話視頻。
AniPortrait 是騰訊游戲智跡團(tuán)隊(duì)開發(fā)的一款創(chuàng)新的音頻驅(qū)動(dòng)肖像動(dòng)畫生成框架,能夠通過音頻和參考肖像圖像生成高質(zhì)量的動(dòng)態(tài)視頻。
IDM-VTON是一款基于深度學(xué)習(xí)和擴(kuò)散模型的虛擬試衣技術(shù),旨在通過高保真度的圖像生成實(shí)現(xiàn)逼真的虛擬試穿效果。
Diffutoon 是一種基于擴(kuò)散模型的高分辨率可編輯卡通著色技術(shù),其核心功能是將真實(shí)視頻轉(zhuǎn)換為動(dòng)漫風(fēng)格,同時(shí)保持內(nèi)容的一致性和高質(zhì)量。
MindSearch是一款由上海人工智能實(shí)驗(yàn)室聯(lián)合研發(fā)的開源AI搜索引擎框架,旨在通過模仿人類的思維過程,高效地處理復(fù)雜信息搜集與整合任務(wù)。
Midscene.js 是一個(gè)基于人工智能(AI)技術(shù)的自動(dòng)化 SDK,旨在簡(jiǎn)化用戶界面(UI)自動(dòng)化測(cè)試流程,提高測(cè)試效率和準(zhǔn)確性。
易于上手的多平臺(tái)聊天機(jī)器人及開發(fā)框架。松耦合 / 異步 / 多消息平臺(tái)部署 / 易用的插件系統(tǒng) / 完善的大語言模型(LLM)接入
FireRedTTS是一款由小紅書技術(shù)團(tuán)隊(duì)開發(fā)的基于大語言模型(LLM)的語音合成系統(tǒng),旨在為用戶提供高效、多樣化的語音生成服務(wù)。
RAGFlow是一款基于深度文檔理解技術(shù)的開源RAG(檢索增強(qiáng)生成)引擎,旨在為企業(yè)和個(gè)人提供高效、準(zhǔn)確的文本處理和問答功能。
友鏈申請(qǐng)免責(zé)聲明廣告合作關(guān)于本站