AI助力视障者“听见世界”，复旦“眸思”大模型落地！-上海聚慕医疗器械有限公司

在中国，有１７００多万视力障碍者，相当于每１００人中就有一名视障者，面对大量不安全因素，他们难以独自跨出家门。

日前，复旦大学自然语言处理实验室（ＦｕｄａｎＮＬＰ）基于多模态大模型“复旦·眸思”（ＭｏｕＳｉ），为视障者量身打造了“听见世界”ＡＰＰ，为视障人群提供生活便利和安全保障。

“听见世界”ＡＰＰ结合了摄像头捕捉的画面和语言转换技术，以描绘场景、识别风险并辅助视障者在环境中安全导航。只需一枚摄像头和一对耳机，画面能够被转化成语言，描绘场景、提示风险。（“听见世界”下载：　ｈｔｔｐ：／／ｗｗｗ．ｍｏｕｓｉ．ｏｒｇ／）

２０２３年上半年，复旦大学自然语言处理实验室发布了开发ＭＯＳＳ对话式大型语言模型，被称为中国版的ＧＰＴ，仅用半年时间多模态模型“眸思”问世。据介绍，“眸思”和基于文本的ＭＯＳＳ不同，它能够理解并识别图片内容，致力于成为视障者的一双“眸”。

到目前为止，“听见世界”ＡＰＰ已上线自由问答、街道行走、物品查找、拍照阅读４种模式。分别是街道行走模式、自由问答模式和物品查找模式。通过街道行走模式，可以细致扫描道路情况，提示潜在风险，如红绿灯、十字路口、障碍物等。在自由问答模式中，可以描述周围场景的细节，用声音构建丰富的生活场景。物品查找模式可以让视障人士找寻日常物件变得轻松。通过拍照阅读模式可以将文字转化为语音，服务点菜、读书等场景，帮助视障人士获取更多信息。

听1.jpg

听2.png

听3.png

项目团队由２５名复旦学子及多位教师、专家组成。自去年９月以来，复旦大学自然语言处理实验室围绕ＧＰＴ４－ｖ复现多模态大模型，对核心关键点开展研究，希望提升单项任务的准确率和强化大模型的学习。为了更好地感受视障者的难处，团队成员模拟真实情境，蒙眼探索视障者“黑暗”世界，并邀请视障人士加入，深入理解视障者的具体需求，收集详尽的需求信息。

在基于几亿张图片训练出“眸思”大模型基础上，针对视障者提出的各类需求，团队又用上万张图片进行特殊样本训练，使“眸思”具备能够适配更多场景的能力。据透露，今年上半年，团队将结合ＡＲ升级ＡＰＰ内的定位精度细化至亚米级别。下半年，团队希望将“眸思”升级为基于视频的判断。据介绍，更多模式正在开发中，例如解说模式，可以帮助视障人士解说电影。

据介绍，团队计划与ＮＧＯ组织、智算中心和硬件厂商等开展合作，致力于让视障者免费使用产品和相关服务。预计今年３月“听见世界”ＡＰＰ将完成第一轮测试，在一、二线城市和地区同步开启试点，根据算力部署情况进行推广。

注：文章来源于网络，如有侵权，请联系删除

上一篇：国家医保局答复，事关“互联网首诊”

下一篇：一次性使用无菌揿针适用范围

新闻栏目

相关推荐