详情介绍
心辰Lingo是西湖心辰科技有限公司研发的国内首个端到端通用语音大模型,于2024年9月5日在外滩大会上正式发布。与传统的语音交互系统不同,它不再依赖“语音识别+大模型+语音合成”的拼接模式,而是通过端到端技术直接理解语音中的完整信息,包括文字、情感、语气、节奏、音调乃至环境音,并进行语音回复,极大减少了信息处理过程中的损失。
西湖心辰成立于2021年,由西湖大学孵化而成,专注于人工智能领域的研发与服务。公司创始人蓝振忠毕业于卡耐基梅隆大学,曾就职于谷歌AI研究所,团队汇集了来自Google、Meta、Amazon等公司的AI技术人才。上市公司汤姆猫自2023年起对西湖心辰进行了两轮战略投资,双方联合打造“汤姆猫情感陪伴垂直模型”,将心辰Lingo的能力应用于AI机器人产品。
心辰Lingo的技术突破主要体现在三个方面:原生的语音理解能力、多样化的语音风格表达、以及高效的语音模态压缩。这些技术特性使它在中文语音效果上对标甚至在某些方面超越GPT-4o,为用户带来更加自然、生动、富有情感的交互体验。
自2024年8月开放内测预约以来,已有超千家企业用户预约测试,覆盖教育、金融、医疗健康、媒体娱乐等多个行业。西湖心辰计划在10月发布基于心辰Lingo的儿童陪伴、心理疏导、销售服务三大垂类语音模型,进一步推动AI技术的行业应用。
官网入口地址
心辰Lingo的官方网站入口是:https://xinchenai.com/product/lingo
内测申请专用地址:https://lingo.xinchenai.com/
下载地址
心辰Lingo目前主要通过官网提供内测申请和企业服务接入,暂未开放公开下载。企业和开发者可通过官网提交内测预约,获取API接入权限。西湖心辰同时提供基于心辰Lingo的垂类模型服务,如儿童陪伴、心理疏导、销售服务等,可通过商务合作方式获取。
功能介绍
心辰Lingo作为国内首个端到端通用语音大模型,具备以下核心功能:
-
原生的语音理解能力
心辰Lingo不仅能够识别语音中的文字信息,还能精确捕捉情感、语气、音调、节奏等副语言特征,甚至能感知环境音。这使得模型能够更全面地理解用户的真实意图,比如区分一句“你真行”是真心夸奖还是反讽,从而做出更恰当的回应。 -
多样化的语音风格表达
模型可以根据对话情境和用户指令,灵活调整语音特性,包括语速、音高、音量、情感色彩等。它支持生成多种风格的语音回应,如日常对话、歌唱表演、相声对白等,极大地增强了在不同使用场景中的灵活性和适应性。 -
实时打断与实时控制
用户可以在对话中随时打断模型的发言,模型能立即响应并调整。同时支持通过语音实时控制音量、语速等参数,让对话更加生动、直观。比如用户说“声音大一点”“说慢点”,模型能即时调整。 -
超级拟人与情绪化回应
心辰Lingo能够模拟真人的情感反应模式,在适当的时候加入笑声、停顿等拟人化表现。即使遇到理解错误的情况,也能用适时的笑声来缓解尴尬,提供类似与人类朋友交流的体验。 -
语音模态超级压缩
采用高效的语音编解码器,能够将语音压缩至极短的长度,具有数百倍的压缩率,显著降低计算和存储成本,同时保证高质量的语音内容输出。 -
多场景垂域增强能力
模型可根据不同行业需求进行深度训练,目前已规划儿童陪伴、心理疏导、销售服务三大垂类语音模型。在心理疏导场景中,它能像知心姐姐一样倾听和共情;在游戏陪玩场景中,它可以扮演损友角色,用调侃的方式互动。 -
多模态情感捕捉
除了文字信息,心辰Lingo还能捕捉情感、语气、音调等非言语信号,使模型能够更全面地理解语音内容,提供更加流畅且生动的交互体验。比如听到用户语速变慢、音调低沉,它能感知到用户情绪低落,从而调整回应方式。 -
智能语音问答能力
模型能够回答各种类型的问题,包括生活知识、工作技能等复杂领域的内容,提供快速且准确的语音智能交互体验。
应用场景
心辰Lingo凭借端到端语音交互能力和情感理解优势,在多个行业展现出广阔的应用前景:
-
心理健康与情感陪伴:可作为AI心理咨询师,提供24小时在线的心理支持和情感陪伴。与杭州市第一人民医院合作的“市一小西”已上线,提供专业的心理咨询和报告解读服务。心理陪伴应用“聊会小天”已服务10万注册用户,可在支付宝、微信等平台找到。
-
儿童陪伴与教育:基于心辰Lingo的儿童陪伴垂类模型,可用于智能玩具、教育机器人等产品。汤姆猫公司正利用心辰Lingo将“会说话的汤姆猫”升级为“会聊天的汤姆猫”AI机器人。模型能根据儿童的情绪和语气调整互动方式,提供寓教于乐的陪伴体验。
-
智能客服与销售:在金融、保险等行业,心辰Lingo可提升客户服务效率和满意度。某产险企业计划利用提高客户服务质量。销售服务垂类模型可模拟优秀销售人员的沟通技巧,辅助实际销售工作。
-
智能家居与IoT设备:心辰Lingo可赋能各类智能设备,实现更自然的语音交互。比如听到用户说“阳台的地有点脏”,扫地机器人就能主动去清扫;听到“阳光有些刺眼”,智能窗帘便会自动调整遮光帘。
-
游戏与娱乐:在游戏语音陪伴、社交辅助助手等场景中,心辰Lingo能扮演不同角色,提供沉浸式的互动体验。它可以模仿特定人物设定,用符合角色性格的方式与用户交流。
-
医疗健康咨询:医疗健康领域可利用心辰Lingo提供患者心理咨询和健康干预。某医院计划将用于患者的心理健康支持。
-
媒体与内容创作:模型支持多种语音风格表达,可用于有声内容生产、播客制作、虚拟主播等场景,大幅提升内容生产效率。
定价与应用示例
-
定价:心辰Lingo目前处于内测阶段,企业和开发者可通过官网申请免费试用。商业使用定价尚未公开披露,预计将根据API调用量、定制化需求等因素提供灵活的合作方案。基于心辰Lingo的垂类模型(如儿童陪伴、心理疏导、销售服务)预计将通过商务合作方式提供。
-
内测进展:自2024年8月开放内测预约以来,已有超千家企业用户预约测试。感兴趣的用户可通过官网https://lingo.xinchenai.com/提交申请。
-
技术合作伙伴:西湖心辰与上市公司汤姆猫达成战略投资与合作,双方联合打造“汤姆猫情感陪伴垂直模型”,将心辰Lingo的能力应用于AI机器人产品。同时,心辰Lingo已与杭州市第一人民医院合作,推出AI心理咨询师“市一小西”。
-
应用示例:心理陪伴应用“聊会小天”接入心辰Lingo后,已服务10万注册用户。该应用可在支付宝、微信以及浙江大学、理工大学等高校App上找到。它能够提供情感支持和心理陪伴,当检测到用户有严重心理问题或轻生倾向时,会启动人工干预流程,推送给干预热线。
-
发展规划:西湖心辰计划在2024年10月发布基于心辰Lingo的儿童陪伴、心理疏导、销售服务三大垂类语音模型,与行业伙伴共同推动AI技术的创新和应用。
心辰Lingo语音大模型常见问题
心辰Lingo是由西湖心辰科技有限公司研发的。这家公司2021年成立,是由西湖大学孵化的AI技术企业。创始人蓝振忠曾在谷歌AI研究所工作,团队里还有不少来自Google、Meta、亚马逊的技术人才。上市公司汤姆猫也是它的投资方和合作伙伴。
心辰Lingo的官网地址是https://xinchenai.com/product/lingo 目前它还在内测阶段,想试用的话需要通过官网提交内测申请。专门的申请入口是https://lingo.xinchenai.com/ 填完信息等审核通过就能用了。
它是国内第一个端到端的通用语音大模型,简单说就是能直接听懂人说话的感情和语气,然后用有感情的语音回答你。不像以前的语音助手要先转文字再处理,它一步到位,还能捕捉笑声、叹气、环境音这些细节,让AI真正听懂你的言外之意。
目前主要是企业用户申请内测。你先去官网https://lingo.xinchenai.com/填个申请表,通过后会拿到API接入权限。如果你是个人用户,可以关注西湖心辰的合作伙伴产品,比如汤姆猫正在做的AI机器人,或者支付宝微信里的小程序“聊会小天”,这些都已经用上了心辰Lingo的能力。
目前内测阶段对企业用户是免费申请的。正式商用后的定价还没公布,估计会根据调用量、定制需求来定。个人用户通过“聊会小天”这类应用使用是免费的,可以先去体验一下效果。
西湖心辰团队对安全问题很重视。创始人蓝振忠提到,心辰Lingo是内容生产方,团队在训练时就特别注意保证交互时的安全性,避免输出不当言语。心理陪伴应用“聊会小天”还有一套完整的评估和干预流程,遇到用户有轻生倾向会触发人工干预,安全性考虑得挺周全。
想让心辰Lingo发挥效果,可以试试这几个小技巧。第一,自然说话就好,不用刻意放慢或简化表达,它能听懂语气和情感。第二,想打断它随时开口就行,它支持实时打断。第三,让它唱歌、说相声、换角色设定,都可以直接语音指令。第四,做企业应用时,根据自己行业数据做深度训练效果更好,西湖心辰也提供儿童陪伴、心理疏导这些垂类模型。
最特色的当然是它能听懂情感和语气,这是他很多语音模型做不到的。比如你说一句“你真行”,它能判断你是夸还是骂。第二个特色是超级拟人,会在合适的时候笑一下,缓解尴尬。第三个是能说会唱,可以切换对话、唱歌、相声各种风格。第四个是实时打断和控制,你说“声音大点”它就立马调音量。
心理陪伴应用“聊会小天”已经服务了10万用户,背后有一整套评估和干预流程。对于企业用户,建议直接联系西湖心辰了解具体的数据加密和隐私保护措施。如果涉及敏感信息,可以关注它后续是否提供私有化部署方案。
从媒体报道看,心辰Lingo在中文语音效果上对标GPT-4o,某些方面还更出色。开放内测不到10天就有超千家企业预约,这个热度说明市场挺认可的。心理陪伴应用已经服务了10万用户,证明在实际场景中表现不错。创始人举的例子也很有意思,比如游戏里打不过关时,它可以像损友一样调侃你。
心辰Lingo是语音对话模型,主要做语音交互,不是用来生成PPT的。但你可以通过语音跟它讨论PPT内容,让它帮你整理思路、生成大纲,然后自己把内容复制到PPT软件里排版。它擅长的是理解和生成有感情的语言内容。
心辰Lingo不能直接生成视频画面,但它可以为视频生成配音。比如你做好了视频画面,用Lingo生成有感情的旁白或角色对话,然后导入剪辑软件合成。它的多风格语音表达和情感控制能力,做视频配音效果会很好。
官方目前没有公开具体的对话长度限制信息。但从端到端语音模型的技术特点来看,它支持的是自然的、打断式的实时对话,就像人和人聊天一样,可以一直聊下去。如果需要长时间连续对话,建议咨询官方了解具体的技术参数。
| 分享笔记 (共有 篇笔记) |