功能介绍
评论列表

详情介绍

Voicebox是Meta AI研究团队于2023年6月推出的新一代生成式语音模型,代表了语音合成技术的重大突破。与传统文本转语音系统不同,Voicebox采用了一种名为"流匹配"的非自回归方法,能够通过学习解决文本引导的语音填充任务,在60K小时英语数据和50K小时多语言数据训练基础上,实现跨多种语音任务的上下文学习。

Voicebox的核心创新在于非自回归的流匹配架构。传统自回归模型需要按顺序逐个预测音频片段,生成速度慢且容错性差。而Voicebox能够同时考虑上下文信息,生成语音的速度可达自回归模型的20倍,同时保持出色的自然度和准确性。

Meta开发Voicebox的初衷是为虚拟助手、元宇宙中的非玩家角色提供更自然的语音体验,同时帮助视障人士通过朋友的声音来获取文本信息。考虑到这项技术被滥用的风险,如未经授权复刻他人声音,Meta决定暂时不公开Voicebox的模型和代码,但同时也开发了能够区分真实语音和AI生成语音的分类器,以应对潜在的滥用风险。

Voicebox的研究成果展示了生成式语音模型的巨大潜力,也为未来安全、负责任地部署此类技术奠定了基础。

官网入口地址

Voicebox的官方研究展示页面是:https://voicebox.metalab.com/

Meta AI官方博客介绍:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

下载地址

目前,Voicebox的模型和代码尚未公开发布。Meta出于对技术被滥用的担忧,决定暂不公开模型权重和代码。但开发者可以通过官方演示页面体验Voicebox的功能示例,并查看研究论文了解技术细节。

研究论文地址:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

功能介绍

Voicebox作为一款生成式语音模型,具备多种创新功能:

  1. 零样本文本转语音合成
    通过上下文学习,Voicebox可以仅凭一个参考音频(约2-3秒)和待合成的文本,生成与参考音频在音色、背景噪音、说话风格上一致的语音。这意味着即使用户没有见过特定说话人的大量数据,也能准确模仿声音。

  2. 跨语言风格转换
    Voicebox支持将一种语言的语音风格迁移到另一种语言。,用户可以用法语音频作为提示,生成带有法语口音和风格的英语语音。这一功能未来有望让每个人用自己的声音说任何语言。

  3. 瞬态噪音消除
    在录音过程中,如果被门铃、狗叫等突发噪音打断,Voicebox可以像魔法橡皮擦一样,重新生成被噪音污染的语音片段,无需重新录制整个音频。这为播客、视频创作者提供了极大的便利。

  4. 内容编辑
    Voicebox允许用户在不重新录制的情况下修改音频中的说错内容。只需编辑对应的文本,模型就能生成与原始音频在音色、背景、韵律上一致的修正部分,让人难以察觉编辑痕迹。

  5. 多样化语音生成
    Voicebox能够不依赖任何参考音频,通过采样生成独特且富有表现力的语音风格。这为创意工作者提供了丰富的音频素材库。

  6. 六种语言支持
    多语言版本的Voicebox在50K小时数据上训练,覆盖英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言。

  7. 上下文感知
    与只能基于过去信息预测的自回归模型不同,Voicebox的非自回归架构使能够同时利用过去和未来的上下文进行预测,生成结果更加自然连贯。

  8. 高效生成速度
    Voicebox的生成速度比进的自回归模型快20倍,大大提升了实际应用中的效率。

应用场景

Voicebox的研究成果展示了广阔的应用前景:

  • 虚拟助手与元宇宙角色:为Siri、Alexa等虚拟助手提供更自然的语音,为元宇宙中的NPC赋予真实人声。

  • 无障碍辅助:帮助视障人士用朋友、家人的声音朗读文本信息,提升亲切感。

  • 创意内容生产:播客、视频创作者可以快速修正录制错误,无需重新录音。

  • 影视配音:跨语言风格转换功能可用于将配音内容转换为原演员的声音。

  • 个性化语音产品:企业可为用户提供个性化的语音助手声音。

  • 语音数据增强:为语音识别模型训练生成多样化的语音样本。

定价与应用示例

  • 定价:Voicebox目前处于研究阶段,尚未作为商业产品发布,因此没有定价信息。Meta暂不计划将商业化。

  • 发布状态:2023年6月发布研究论文和演示页面,模型和代码未公开发布。

  • 滥用防范:Meta开发了专门的分类器,能够区分真实语音和Voicebox生成的语音,准确率较高,以应对潜在的滥用风险。

  • 研究论文:详细技术介绍可查阅Meta AI官网发布的研究论文。

  • 应用示例:在官方演示中,Voicebox可以将一段被狗叫声打断的演讲修复,只需几秒就能生成干净流畅的语音,效果令人惊叹。

Voicebox常见问题

本文标签