聚慕 - 专业医疗器械服务商
设为首页 收藏本页 人事招聘 关于聚慕
400-901-5099
全部商品分类
ai助力视障者“听见世界”,复旦“眸思”大模型落地!
发布时间:2024-03-06 09:50:19

在中国,有1700多万视力障碍者,相当于每100人中就有一名视障者,面对大量不安全因素,他们难以独自跨出家门。

日前,复旦大学自然语言处理实验室(FudanNLP)基于多模态大模型“复旦·眸思”(MouSi),为视障者量身打造了“听见世界”APP,为视障人群提供生活便利和安全保障。

“听见世界”APP结合了摄像头捕捉的画面和语言转换技术,以描绘场景、识别风险并辅助视障者在环境中安全导航。只需一枚摄像头和一对耳机,画面能够被转化成语言,描绘场景、提示风险。(“听见世界”下载: http://www.mousi.org/)

2023年上半年,复旦大学自然语言处理实验室发布了开发MOSS对话式大型语言模型,被称为中国版的GPT,仅用半年时间多模态模型“眸思”问世。据介绍,“眸思”和基于文本的MOSS不同,它能够理解并识别图片内容,致力于成为视障者的一双“眸”。

到目前为止,“听见世界”APP已上线自由问答、街道行走、物品查找、拍照阅读4种模式。分别是街道行走模式、自由问答模式和物品查找模式。通过街道行走模式,可以细致扫描道路情况,提示潜在风险,如红绿灯、十字路口、障碍物等。在自由问答模式中,可以描述周围场景的细节,用声音构建丰富的生活场景。物品查找模式可以让视障人士找寻日常物件变得轻松。通过拍照阅读模式可以将文字转化为语音,服务点菜、读书等场景,帮助视障人士获取更多信息。

听1.jpg

听2.png

听3.png

项目团队由25名复旦学子及多位教师、专家组成。自去年9月以来,复旦大学自然语言处理实验室围绕GPT4-v复现多模态大模型,对核心关键点开展研究,希望提升单项任务的准确率和强化大模型的学习。为了更好地感受视障者的难处,团队成员模拟真实情境,蒙眼探索视障者“黑暗”世界,并邀请视障人士加入,深入理解视障者的具体需求,收集详尽的需求信息。

在基于几亿张图片训练出“眸思”大模型基础上,针对视障者提出的各类需求,团队又用上万张图片进行特殊样本训练,使“眸思”具备能够适配更多场景的能力。据透露,今年上半年,团队将结合AR升级APP内的定位精度细化至亚米级别。下半年,团队希望将“眸思”升级为基于视频的判断。据介绍,更多模式正在开发中,例如解说模式,可以帮助视障人士解说电影。

据介绍,团队计划与NGO组织、智算中心和硬件厂商等开展合作,致力于让视障者免费使用产品和相关服务。预计今年3月“听见世界”APP将完成第一轮测试,在一、二线城市和地区同步开启试点,根据算力部署情况进行推广。

注:文章来源于网络,如有侵权,请联系删除

为您找货 · 告诉我们您想要找什么商品?我们将尽快给您答复。
* 商品名称:
* 您想了解:
  • 商品资料
  • 货期
  • 价格
  • 安调
  • 其他
* 手机号码:
* 姓名: