眸思大模型

一款多模態(tài)大模型，旨在通過視覺和語言的深度融合，提升視障人士的生活便利性

標簽：AI大模型復旦眸思大模型眸思大模型

鏈接直達手機查看

復旦大學開發(fā)的“復旦·眸思”（MouSi）是一款多模態(tài)大模型，旨在通過視覺和語言的深度融合，提升視障人士的生活便利性。該模型由復旦大學自然語言處理實驗室（FudanNLP）研發(fā)，結(jié)合了圖文匹配、光學字符識別（OCR）和圖像分割等多種視覺任務專家的能力，顯著提高了多模態(tài)對話任務的表現(xiàn)效果。

復旦眸思大模型官網(wǎng)入口網(wǎng)址：http://mousi.org/

“眸思”模型的核心在于其多模態(tài)特性，能夠理解并識別圖片內(nèi)容，并將其轉(zhuǎn)化為語言描述，從而幫助視障人士更好地感知周圍環(huán)境。例如，“聽見世界”APP基于“眸思”模型，為視障人士提供了街道行走模式、自由問答模式和尋物模式，幫助他們在日常生活中更安全、便捷地導航和尋找物品。

為了使“眸思”模型更加貼合視障人士的需求，研發(fā)團隊進行了大量特殊樣本訓練，并邀請視障人士參與模擬真實情境的測試，以確保模型能夠適應更多場景。此外，“眸思”還計劃結(jié)合AR技術(shù)提升定位精度，并在未來升級為基于視頻判斷的模式，進一步增強其功能。

“復旦·眸思”不僅在科研領(lǐng)域表現(xiàn)出色，還在公益項目中發(fā)揮了重要作用。例如，在“聽見世界”的公益短片中，“眸思”通過將畫面轉(zhuǎn)化為語言描述，幫助視障人士了解和應對潛在風險。此外，該模型還計劃與NGO組織、智障中心和硬件廠商合作，讓視障人士免費使用相關(guān)產(chǎn)品和服務。

“復旦·眸思”大模型通過多模態(tài)融合技術(shù)，為視障人士提供了一種全新的生活輔助工具，不僅提升了他們的生活質(zhì)量，也為AI技術(shù)在社會公益領(lǐng)域的應用開辟了新的可能性。