复旦·眸思：用AI之声，为视障人士点亮“看见”世界的希望-代码号

Name: 眸思大模型
Author: 原创

在繁华的都市里，我国有超过1700万视障人士。我们却很少在街头看到他们的身影——因为独自出行面临的未知风险，将他们困在了家门之内。为了打破这堵无形的墙，复旦大学自然语言处理实验室的师生们，用AI技术为他们安上了一双“眼睛”。

2023年，复旦团队在发布知名大模型MOSS后，仅用半年时间，就推出了它的“多模态兄弟”——“复旦·眸思”（MouSi）。眸思与MOSS同音，但功能迥异。如果说MOSS是擅长文本对话的“大脑”，那么眸思就是能“看懂”世界的“双眸”。它能够理解图片内容，并将视觉信息转化为生动的语言，通过耳机传递给视障用户。

眸思的名字富有诗意，寓意成为视障者洞察世界的眼眸。它的诞生并非一帆风顺。为了真正理解视障者的需求，团队成员亲自蒙上眼睛，模拟在黑暗中mō索的体验，并邀请视障人士参与测试，收集最真实的需求反馈。在基于数亿张图片训练出的基础模型上，团队又针对视障者提出的各类场景，用上万张图片进行了特殊的“强化训练”，让模型能够适配复杂的现实环境。

基于眸思大模型，团队推出了“听见世界”APP。这款应用不仅是一个工具，更是一位随时陪伴在侧的“智能向导”和“贴心管家”。它设计了三种核心模式：街道行走模式，细致扫描路况，提示红绿灯与障碍物；自由问答模式，在博物馆或公园里为用户描述周围景致；寻物模式，帮助寻找被挪动的手杖或物品。

未来，眸思的想象力不止于此。团队计划结合AR技术将定位精度提升至亚米级别，并升级为基于视频的判断。更多场景如“阅读模式”（帮助点菜、读书）和“解说模式”（无障碍电影解说）也正在开发中，力图让AI的光照亮视障人士生活的每一个角落。

官网入口地址

复旦·眸思的官方信息发布和“听见世界”APP的体验入口可通过以下官网了解：

项目官网：http://mousi.org/

下载地址

复旦·眸思本身为云端大模型，用户无需下载模型。面向公众的服务载体是 “听见世界”APP。您可以通过以下方式获取：

iOS用户：可在App Store搜索“听见世界”进行下载。
Android用户：可在各大应用商店（如华为应用市场、小米应用商店等）搜索“听见世界”进行下载。
官网指引：也可访问官网 http://mousi.org/ 获取下载二维码或链接。

功能介绍

复旦·眸思并非一个简单的图像识别工具，而是一个深度融合了视觉理解与语言生成的智能系统。它的核心功能围绕“听见世界”APP展开，为视障人士量身打造了多种交互模式：

街道行走模式——安全的向导
这是眸思最核心的功能之一。用户开启此模式并将手机摄像头对准前方，眸思会实时分析画面，识别出红绿灯状态、十字路口、人行横道、路边的障碍物（如电线杆、停放的单车）等关键信息，并通过语音及时提醒用户，“前方5米是十字路口，绿灯可以通行”或“注意，右前方有障碍物”。它陪伴视障者安全走过那些“看不见”的路。
自由问答模式——贴心的朋友
当视障者身处复杂环境，如博物馆、公园或超市时，可以随时向眸思提问。“我现在面前有什么？”、“这幅画里画的是什么？”、“这个商品是什么牌子的？”。眸思能捕捉摄像头画面中的细节，用语言构建出一个丰富的场景，让用户通过“听”来感知世界的美好与细节。
寻物模式——可靠的管家
生活中常见的烦恼是找不到东西，对视障者来说更是如此。眸思的寻物模式可以帮忙。用户只需说“帮我找找我的盲杖”，然后拿着手机缓缓扫过房间，当摄像头捕捉到目标物体时，眸思会通过语音提示“盲杖在你左前方的沙发旁”，让寻觅变得轻松。
科研辅助能力（通用功能）
除了公益应用，眸思作为一个先进的多模态大模型，本身也具备强大的图文理解能力。它采用多专家融合架构，集成了擅长图文匹配、光学字符识别和图像分割等多种视觉任务的专家，因此在处理复杂图文信息、解读图表、分析实验数据等方面同样表现出色，可以作为科研人员的“好助手”，帮助生成实验示意图或解读学术论文中的图表。

应用场景

复旦·眸思的应用场景紧密围绕“让AI服务真实世界”的理念，尤在公益领域展现出巨大价值：

视障人士独立出行：这是眸思最核心的应用场景。它帮助视障者解决独自外出的痛点——安全问题，让他们有信心乘坐公共交通、去超市购物、在公园散步，真正融入社会。
视障人士文化生活：在博物馆、艺术馆等场所，眸思可以作为“语音导览”的升级版，不仅能播放预设的介绍，更能实时回答用户关于眼前展品的任何问题。未来，它还能承担无障碍电影“解说员”的工作，为视障朋友描述画面情节。
视障人士居家生活：寻物模式解决日常小烦恼；未来的“阅读模式”可以帮助他们“阅读”药品说明书、餐厅菜单、书籍内容，极大提升生活自理能力。
科研与教育领域：对于明眼用户，眸思强大的多模态理解能力，可以用于辅助解读科研图表、分析实验结果、制作教学插图等，成为知识工作者的得力助手。

必要补充信息

定价：复旦·眸思大模型及应用“听见世界”APP，是面向视障人士免费提供的公益项目。在的支持下，研发团队的目标是让所有有需要的视障者都能零成本使用这项服务。
研发团队：项目由复旦大学自然语言处理实验室（FudanNLP）张奇教授领衔，核心研发人员是一支充满活力的年轻队伍，包括25名从本科生到博士生的复旦学子。
进展（截至2024年信息）：
- 测试与推广：“听见世界”APP已于2024年3月完成第一轮测试，并在国内一、二线城市和地区开启试点推广。
- 技术升级：团队计划在2024年上半年结合AR技术，将定位精度提升至亚米级别；下半年则希望将模型升级为基于视频的判断，实现更流畅连续的实时理解。
- 更多模式：除了现有三大模式，“阅读模式”和“无障碍电影解说模式”等新功能也正在开发中。
社会价值：复旦大学张奇教授表示：“科技应该要改变更多人的生活。希望‘眸思’能够帮助视障人士走出家门，让他们可以尝试更多工作，为人生书写更多。” 这也正是眸思项目的初心所在。

眸思大模型常见问题

复旦·眸思是哪个公司开发的？

复旦·眸思的网页版在线使用入口官网地址是什么？

复旦·眸思到底是什么？

视障人士具体应该怎么用上这个技术？

复旦·眸思是免费的吗？收费吗？

这个APP安全可靠吗？会不会误导视障人士？

有没有什么高效使用“听见世界”APP的技巧？

复旦·眸思有哪些他AI工具没有的特色功能？

我使用“听见世界”APP时，拍到的画面数据安全吗？

听说这个模型还能帮科研人员干活，是真的吗？

我想用复旦·眸思帮我做个PPT，它能直接生成PPT文件吗？

复旦·眸思能直接生成视频吗？

这个模型有对话长度限制吗？比如我能在一次出行中连续问很多问题吗？

眸思大模型

详情介绍