详情介绍
在繁华的都市里,我国有超过1700万视障人士。我们却很少在街头看到他们的身影——因为独自出行面临的未知风险,将他们困在了家门之内。为了打破这堵无形的墙,复旦大学自然语言处理实验室的师生们,用AI技术为他们安上了一双“眼睛”。
2023年,复旦团队在发布知名大模型MOSS后,仅用半年时间,就推出了它的“多模态兄弟”——“复旦·眸思”(MouSi)。眸思与MOSS同音,但功能迥异。如果说MOSS是擅长文本对话的“大脑”,那么眸思就是能“看懂”世界的“双眸”。它能够理解图片内容,并将视觉信息转化为生动的语言,通过耳机传递给视障用户。
眸思的名字富有诗意,寓意成为视障者洞察世界的眼眸。它的诞生并非一帆风顺。为了真正理解视障者的需求,团队成员亲自蒙上眼睛,模拟在黑暗中mō索的体验,并邀请视障人士参与测试,收集最真实的需求反馈。在基于数亿张图片训练出的基础模型上,团队又针对视障者提出的各类场景,用上万张图片进行了特殊的“强化训练”,让模型能够适配复杂的现实环境。
基于眸思大模型,团队推出了“听见世界”APP。这款应用不仅是一个工具,更是一位随时陪伴在侧的“智能向导”和“贴心管家”。它设计了三种核心模式:街道行走模式,细致扫描路况,提示红绿灯与障碍物;自由问答模式,在博物馆或公园里为用户描述周围景致;寻物模式,帮助寻找被挪动的手杖或物品。
未来,眸思的想象力不止于此。团队计划结合AR技术将定位精度提升至亚米级别,并升级为基于视频的判断。更多场景如“阅读模式”(帮助点菜、读书)和“解说模式”(无障碍电影解说)也正在开发中,力图让AI的光照亮视障人士生活的每一个角落。
官网入口地址
复旦·眸思的官方信息发布和“听见世界”APP的体验入口可通过以下官网了解:
-
项目官网:http://mousi.org/
下载地址
复旦·眸思本身为云端大模型,用户无需下载模型。面向公众的服务载体是 “听见世界”APP。您可以通过以下方式获取:
-
iOS用户:可在App Store搜索“听见世界”进行下载。
-
Android用户:可在各大应用商店(如华为应用市场、小米应用商店等)搜索“听见世界”进行下载。
-
官网指引:也可访问官网 http://mousi.org/ 获取下载二维码或链接。
功能介绍
复旦·眸思并非一个简单的图像识别工具,而是一个深度融合了视觉理解与语言生成的智能系统。它的核心功能围绕“听见世界”APP展开,为视障人士量身打造了多种交互模式:
-
街道行走模式——安全的向导
这是眸思最核心的功能之一。用户开启此模式并将手机摄像头对准前方,眸思会实时分析画面,识别出红绿灯状态、十字路口、人行横道、路边的障碍物(如电线杆、停放的单车)等关键信息,并通过语音及时提醒用户,“前方5米是十字路口,绿灯可以通行”或“注意,右前方有障碍物”。它陪伴视障者安全走过那些“看不见”的路。 -
自由问答模式——贴心的朋友
当视障者身处复杂环境,如博物馆、公园或超市时,可以随时向眸思提问。“我现在面前有什么?”、“这幅画里画的是什么?”、“这个商品是什么牌子的?”。眸思能捕捉摄像头画面中的细节,用语言构建出一个丰富的场景,让用户通过“听”来感知世界的美好与细节。 -
寻物模式——可靠的管家
生活中常见的烦恼是找不到东西,对视障者来说更是如此。眸思的寻物模式可以帮忙。用户只需说“帮我找找我的盲杖”,然后拿着手机缓缓扫过房间,当摄像头捕捉到目标物体时,眸思会通过语音提示“盲杖在你左前方的沙发旁”,让寻觅变得轻松。 -
科研辅助能力(通用功能)
除了公益应用,眸思作为一个先进的多模态大模型,本身也具备强大的图文理解能力。它采用多专家融合架构,集成了擅长图文匹配、光学字符识别和图像分割等多种视觉任务的专家,因此在处理复杂图文信息、解读图表、分析实验数据等方面同样表现出色,可以作为科研人员的“好助手”,帮助生成实验示意图或解读学术论文中的图表。
应用场景
复旦·眸思的应用场景紧密围绕“让AI服务真实世界”的理念,尤在公益领域展现出巨大价值:
-
视障人士独立出行:这是眸思最核心的应用场景。它帮助视障者解决独自外出的痛点——安全问题,让他们有信心乘坐公共交通、去超市购物、在公园散步,真正融入社会。
-
视障人士文化生活:在博物馆、艺术馆等场所,眸思可以作为“语音导览”的升级版,不仅能播放预设的介绍,更能实时回答用户关于眼前展品的任何问题。未来,它还能承担无障碍电影“解说员”的工作,为视障朋友描述画面情节。
-
视障人士居家生活:寻物模式解决日常小烦恼;未来的“阅读模式”可以帮助他们“阅读”药品说明书、餐厅菜单、书籍内容,极大提升生活自理能力。
-
科研与教育领域:对于明眼用户,眸思强大的多模态理解能力,可以用于辅助解读科研图表、分析实验结果、制作教学插图等,成为知识工作者的得力助手。
必要补充信息
-
定价:复旦·眸思大模型及应用“听见世界”APP,是面向视障人士免费提供的公益项目。在的支持下,研发团队的目标是让所有有需要的视障者都能零成本使用这项服务。
-
研发团队:项目由复旦大学自然语言处理实验室(FudanNLP)张奇教授领衔,核心研发人员是一支充满活力的年轻队伍,包括25名从本科生到博士生的复旦学子。
-
进展(截至2024年信息):
-
测试与推广:“听见世界”APP已于2024年3月完成第一轮测试,并在国内一、二线城市和地区开启试点推广。
-
技术升级:团队计划在2024年上半年结合AR技术,将定位精度提升至亚米级别;下半年则希望将模型升级为基于视频的判断,实现更流畅连续的实时理解。
-
更多模式:除了现有三大模式,“阅读模式”和“无障碍电影解说模式”等新功能也正在开发中。
-
-
社会价值:复旦大学张奇教授表示:“科技应该要改变更多人的生活。希望‘眸思’能够帮助视障人士走出家门,让他们可以尝试更多工作,为人生书写更多。” 这也正是眸思项目的初心所在。
眸思大模型常见问题
复旦·眸思不是由商业公司开发的,它是由复旦大学自然语言处理实验室,也就是FudanNLP研发的。这个实验室之前还开发过知名的MOSS大模型,眸思可以看作是MOSS在多模态视觉理解方向的兄弟模型。
复旦·眸思的服务主要是通过手机APP提供的,它的官网地址是 mousi.org。你可以在官网上找到“听见世界”APP的详细介绍和下载指引,不过目前它没有像普通聊天机器人那样的网页版试用入口。
你可以把它理解成一双为视障人士打造的“AI眼睛”,和一副“会说话的嘴巴”。它是一个能看懂图片和视频内容的多模态大模型,核心任务就是把摄像头看到的画面,转化成清晰、有用的语音描述,通过耳机告诉视障用户,帮助他们感知周围的世界。
非常方便。视障人士或他们的家人,可以在手机的应用商店里搜索“听见世界”,下载安装这个APP。打开后,把手机用挂绳戴在胸前,让后置摄像头对准前方,戴上耳机,就可以根据语音提示选择不同的使用模式了,比如出门选“行走模式”,找东西选“寻物模式”。
它是免费的。这是一个公益性质的项目,研发团队的目标就是帮助视障人士,让他们不用花一分钱就能用上这项技术。在的支持下,他们正努力把这个服务推广给更多有需要的人。
研发团队非常重视这个问题。他们不仅用海量图片训练基础模型,还专门邀请视障人士参与测试,模拟真实场景进行优化。同时,团队也在持续升级技术,比如结合AR提高定位精度。作为一项辅助技术,它仍处于不断完善中,用户在使用时也需要结合自己的他感官综合判断。
有几点可以试试。出门前可以提前选好“街道行走模式”,让APP专注于路况提醒。在超市或博物馆这类复杂环境,多用“自由问答模式”,直接问“我手里拿的是什么”或“右边墙上有什么”,这样交互更直接。保持手机摄像头清洁、握持稳定,也能提高识别准确率。
特色就是“为爱发电”的纯粹公益属性,以及深度定制的场景化模式。比如专门为过马路设计的“街道行走模式”、为找盲杖设计的“寻物模式”,这些都是通用AI模型里很少见的。它不追求大而全,而是真正切中了一小部分人的核心需求。
对于数据隐私问题,研发团队在光明日报的报道中特别强调,在使用类似眸思这样的多模态模型时,必须采取严格的数据保护措施。作为一款出自顶尖高校的公益产品,它遵循严谨的科研伦理和数据安全规范,致力于保护用户的隐私。如果你有顾虑,也可以在相对私密的环境下再使用相关功能。
是的,没错。复旦·眸思作为一个先进的多模态大模型,它除了为视障人士服务,本身也具备很强的图文理解能力。比如研究人员可以用它来解读复杂的实验数据图表、辅助生成论文插图、或者快速分析一批图片样本,确实是个不错的科研小助手。
目前还不能直接生成PPT文件。不过,你可以利用它的“自由问答模式”或科研辅助能力,比如给它一张你找到的参考图,让它帮你分析这张图的配色和布局,然后给你写出一段PPT文案。或者让它“看”你的实验数据图,帮你总结出图表要点放在PPT里。
目前还不具备直接生成视频的功能。它的核心能力是“理解”画面,而不是“创造”画面。不过,研发团队计划在2024年下半年将模型升级到基于视频的判断,这意味着它可以实时理解连续的动态画面,对于视障人士的行走辅助将是一次巨大的飞跃。
“听见世界”APP并不是传统意义上的聊天机器人,它更侧重于实时、连续的场景描述。在实际使用中,比如你在街道行走模式下,它会持续分析画面并发出提示;在自由问答模式下,你可以连续不断地问“左边有什么”、“前面是红灯吗”,它都能结合实时画面进行回答。目前没有公开资料提及具体的对话轮次限制,它是为了长时间连续服务而设计的。
| 分享笔记 (共有 篇笔记) |