功能介绍
评论列表

详情介绍

在繁华的都市里,我国有超过1700万视障人士。我们却很少在街头看到他们的身影——因为独自出行面临的未知风险,将他们困在了家门之内。为了打破这堵无形的墙,复旦大学自然语言处理实验室的师生们,用AI技术为他们安上了一双“眼睛”。

2023年,复旦团队在发布知名大模型MOSS后,仅用半年时间,就推出了它的“多模态兄弟”——“复旦·眸思”(MouSi)。眸思与MOSS同音,但功能迥异。如果说MOSS是擅长文本对话的“大脑”,那么眸思就是能“看懂”世界的“双眸”。它能够理解图片内容,并将视觉信息转化为生动的语言,通过耳机传递给视障用户。

眸思的名字富有诗意,寓意成为视障者洞察世界的眼眸。它的诞生并非一帆风顺。为了真正理解视障者的需求,团队成员亲自蒙上眼睛,模拟在黑暗中mō索的体验,并邀请视障人士参与测试,收集最真实的需求反馈。在基于数亿张图片训练出的基础模型上,团队又针对视障者提出的各类场景,用上万张图片进行了特殊的“强化训练”,让模型能够适配复杂的现实环境。

基于眸思大模型,团队推出了“听见世界”APP。这款应用不仅是一个工具,更是一位随时陪伴在侧的“智能向导”和“贴心管家”。它设计了三种核心模式:街道行走模式,细致扫描路况,提示红绿灯与障碍物;自由问答模式,在博物馆或公园里为用户描述周围景致;寻物模式,帮助寻找被挪动的手杖或物品。

未来,眸思的想象力不止于此。团队计划结合AR技术将定位精度提升至亚米级别,并升级为基于视频的判断。更多场景如“阅读模式”(帮助点菜、读书)和“解说模式”(无障碍电影解说)也正在开发中,力图让AI的光照亮视障人士生活的每一个角落。

官网入口地址

复旦·眸思的官方信息发布和“听见世界”APP的体验入口可通过以下官网了解:

下载地址

复旦·眸思本身为云端大模型,用户无需下载模型。面向公众的服务载体是 “听见世界”APP。您可以通过以下方式获取:

  • iOS用户:可在App Store搜索“听见世界”进行下载。

  • Android用户:可在各大应用商店(如华为应用市场、小米应用商店等)搜索“听见世界”进行下载。

  • 官网指引:也可访问官网 http://mousi.org/ 获取下载二维码或链接。

功能介绍

复旦·眸思并非一个简单的图像识别工具,而是一个深度融合了视觉理解与语言生成的智能系统。它的核心功能围绕“听见世界”APP展开,为视障人士量身打造了多种交互模式:

  • 街道行走模式——安全的向导
    这是眸思最核心的功能之一。用户开启此模式并将手机摄像头对准前方,眸思会实时分析画面,识别出红绿灯状态、十字路口、人行横道、路边的障碍物(如电线杆、停放的单车)等关键信息,并通过语音及时提醒用户,“前方5米是十字路口,绿灯可以通行”或“注意,右前方有障碍物”。它陪伴视障者安全走过那些“看不见”的路。

  • 自由问答模式——贴心的朋友
    当视障者身处复杂环境,如博物馆、公园或超市时,可以随时向眸思提问。“我现在面前有什么?”、“这幅画里画的是什么?”、“这个商品是什么牌子的?”。眸思能捕捉摄像头画面中的细节,用语言构建出一个丰富的场景,让用户通过“听”来感知世界的美好与细节。

  • 寻物模式——可靠的管家
    生活中常见的烦恼是找不到东西,对视障者来说更是如此。眸思的寻物模式可以帮忙。用户只需说“帮我找找我的盲杖”,然后拿着手机缓缓扫过房间,当摄像头捕捉到目标物体时,眸思会通过语音提示“盲杖在你左前方的沙发旁”,让寻觅变得轻松。

  • 科研辅助能力(通用功能)
    除了公益应用,眸思作为一个先进的多模态大模型,本身也具备强大的图文理解能力。它采用多专家融合架构,集成了擅长图文匹配、光学字符识别和图像分割等多种视觉任务的专家,因此在处理复杂图文信息、解读图表、分析实验数据等方面同样表现出色,可以作为科研人员的“好助手”,帮助生成实验示意图或解读学术论文中的图表。

应用场景

复旦·眸思的应用场景紧密围绕“让AI服务真实世界”的理念,尤在公益领域展现出巨大价值:

  • 视障人士独立出行:这是眸思最核心的应用场景。它帮助视障者解决独自外出的痛点——安全问题,让他们有信心乘坐公共交通、去超市购物、在公园散步,真正融入社会。

  • 视障人士文化生活:在博物馆、艺术馆等场所,眸思可以作为“语音导览”的升级版,不仅能播放预设的介绍,更能实时回答用户关于眼前展品的任何问题。未来,它还能承担无障碍电影“解说员”的工作,为视障朋友描述画面情节。

  • 视障人士居家生活:寻物模式解决日常小烦恼;未来的“阅读模式”可以帮助他们“阅读”药品说明书、餐厅菜单、书籍内容,极大提升生活自理能力。

  • 科研与教育领域:对于明眼用户,眸思强大的多模态理解能力,可以用于辅助解读科研图表、分析实验结果、制作教学插图等,成为知识工作者的得力助手。

必要补充信息

  • 定价:复旦·眸思大模型及应用“听见世界”APP,是面向视障人士免费提供的公益项目。在的支持下,研发团队的目标是让所有有需要的视障者都能零成本使用这项服务。

  • 研发团队:项目由复旦大学自然语言处理实验室(FudanNLP)张奇教授领衔,核心研发人员是一支充满活力的年轻队伍,包括25名从本科生到博士生的复旦学子。

  • 进展(截至2024年信息)

    • 测试与推广:“听见世界”APP已于2024年3月完成第一轮测试,并在国内一、二线城市和地区开启试点推广。

    • 技术升级:团队计划在2024年上半年结合AR技术,将定位精度提升至亚米级别;下半年则希望将模型升级为基于视频的判断,实现更流畅连续的实时理解。

    • 更多模式:除了现有三大模式,“阅读模式”和“无障碍电影解说模式”等新功能也正在开发中。

  • 社会价值:复旦大学张奇教授表示:“科技应该要改变更多人的生活。希望‘眸思’能够帮助视障人士走出家门,让他们可以尝试更多工作,为人生书写更多。” 这也正是眸思项目的初心所在。

眸思大模型常见问题

本文标签