復(fù)旦大學(xué)開(kāi)發(fā)的“復(fù)旦·眸思”(MouSi)是一款多模態(tài)大模型,旨在通過(guò)視覺(jué)和語(yǔ)言的深度融合,提升視障人士的生活便利性。該模型由復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室(FudanNLP)研發(fā),結(jié)合了圖文匹配、光學(xué)字符識(shí)別(OCR)和圖像分割等多種視覺(jué)任務(wù)專(zhuān)家的能力,顯著提高了多模態(tài)對(duì)話任務(wù)的表現(xiàn)效果。
復(fù)旦眸思大模型官網(wǎng)入口網(wǎng)址:http://mousi.org/

“眸思”模型的核心在于其多模態(tài)特性,能夠理解并識(shí)別圖片內(nèi)容,并將其轉(zhuǎn)化為語(yǔ)言描述,從而幫助視障人士更好地感知周?chē)h(huán)境。例如,“聽(tīng)見(jiàn)世界”APP基于“眸思”模型,為視障人士提供了街道行走模式、自由問(wèn)答模式和尋物模式,幫助他們?cè)谌粘I钪懈踩?、便捷地?dǎo)航和尋找物品。
為了使“眸思”模型更加貼合視障人士的需求,研發(fā)團(tuán)隊(duì)進(jìn)行了大量特殊樣本訓(xùn)練,并邀請(qǐng)視障人士參與模擬真實(shí)情境的測(cè)試,以確保模型能夠適應(yīng)更多場(chǎng)景。此外,“眸思”還計(jì)劃結(jié)合AR技術(shù)提升定位精度,并在未來(lái)升級(jí)為基于視頻判斷的模式,進(jìn)一步增強(qiáng)其功能。
“復(fù)旦·眸思”不僅在科研領(lǐng)域表現(xiàn)出色,還在公益項(xiàng)目中發(fā)揮了重要作用。例如,在“聽(tīng)見(jiàn)世界”的公益短片中,“眸思”通過(guò)將畫(huà)面轉(zhuǎn)化為語(yǔ)言描述,幫助視障人士了解和應(yīng)對(duì)潛在風(fēng)險(xiǎn)。此外,該模型還計(jì)劃與NGO組織、智障中心和硬件廠商合作,讓視障人士免費(fèi)使用相關(guān)產(chǎn)品和服務(wù)。
“復(fù)旦·眸思”大模型通過(guò)多模態(tài)融合技術(shù),為視障人士提供了一種全新的生活輔助工具,不僅提升了他們的生活質(zhì)量,也為AI技術(shù)在社會(huì)公益領(lǐng)域的應(yīng)用開(kāi)辟了新的可能性。