Meta Voicebox：颠覆性语音生成AI，用2秒样本复刻任何人的声音-代码号

Name: Voicebox
Author: 原创

Voicebox

用户：原创发布日期：2026-02-27 已有人查阅

Voicebox是由Meta AI研发的先进生成式语音模型，采用创新的流匹配技术，能够从短音频样本中生成自然逼真的语音。它支持六种语言，不仅可以进行零样本语音合成，还能完成噪音消除、内容编辑、跨语言风格转换等任务。Voicebox在生成速度上比传统自回归模型快20倍，为语音生成领域树立了新标杆。

Voicebox是Meta AI研究团队于2023年6月推出的新一代生成式语音模型，代表了语音合成技术的重大突破。与传统文本转语音系统不同，Voicebox采用了一种名为"流匹配"的非自回归方法，能够通过学习解决文本引导的语音填充任务，在60K小时英语数据和50K小时多语言数据训练基础上，实现跨多种语音任务的上下文学习。

Voicebox的核心创新在于非自回归的流匹配架构。传统自回归模型需要按顺序逐个预测音频片段，生成速度慢且容错性差。而Voicebox能够同时考虑上下文信息，生成语音的速度可达自回归模型的20倍，同时保持出色的自然度和准确性。

Meta开发Voicebox的初衷是为虚拟助手、元宇宙中的非玩家角色提供更自然的语音体验，同时帮助视障人士通过朋友的声音来获取文本信息。考虑到这项技术被滥用的风险，如未经授权复刻他人声音，Meta决定暂时不公开Voicebox的模型和代码，但同时也开发了能够区分真实语音和AI生成语音的分类器，以应对潜在的滥用风险。

Voicebox的研究成果展示了生成式语音模型的巨大潜力，也为未来安全、负责任地部署此类技术奠定了基础。

官网入口地址

Voicebox的官方研究展示页面是：https://voicebox.metalab.com/

Meta AI官方博客介绍：https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

下载地址

目前，Voicebox的模型和代码尚未公开发布。Meta出于对技术被滥用的担忧，决定暂不公开模型权重和代码。但开发者可以通过官方演示页面体验Voicebox的功能示例，并查看研究论文了解技术细节。

研究论文地址：https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

功能介绍

Voicebox作为一款生成式语音模型，具备多种创新功能：

零样本文本转语音合成
通过上下文学习，Voicebox可以仅凭一个参考音频（约2-3秒）和待合成的文本，生成与参考音频在音色、背景噪音、说话风格上一致的语音。这意味着即使用户没有见过特定说话人的大量数据，也能准确模仿声音。
跨语言风格转换
Voicebox支持将一种语言的语音风格迁移到另一种语言。，用户可以用法语音频作为提示，生成带有法语口音和风格的英语语音。这一功能未来有望让每个人用自己的声音说任何语言。
瞬态噪音消除
在录音过程中，如果被门铃、狗叫等突发噪音打断，Voicebox可以像魔法橡皮擦一样，重新生成被噪音污染的语音片段，无需重新录制整个音频。这为播客、视频创作者提供了极大的便利。
内容编辑
Voicebox允许用户在不重新录制的情况下修改音频中的说错内容。只需编辑对应的文本，模型就能生成与原始音频在音色、背景、韵律上一致的修正部分，让人难以察觉编辑痕迹。
多样化语音生成
Voicebox能够不依赖任何参考音频，通过采样生成独特且富有表现力的语音风格。这为创意工作者提供了丰富的音频素材库。
六种语言支持
多语言版本的Voicebox在50K小时数据上训练，覆盖英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言。
上下文感知
与只能基于过去信息预测的自回归模型不同，Voicebox的非自回归架构使能够同时利用过去和未来的上下文进行预测，生成结果更加自然连贯。
高效生成速度
Voicebox的生成速度比进的自回归模型快20倍，大大提升了实际应用中的效率。

应用场景

Voicebox的研究成果展示了广阔的应用前景：

虚拟助手与元宇宙角色：为Siri、Alexa等虚拟助手提供更自然的语音，为元宇宙中的NPC赋予真实人声。
无障碍辅助：帮助视障人士用朋友、家人的声音朗读文本信息，提升亲切感。
创意内容生产：播客、视频创作者可以快速修正录制错误，无需重新录音。
影视配音：跨语言风格转换功能可用于将配音内容转换为原演员的声音。
个性化语音产品：企业可为用户提供个性化的语音助手声音。
语音数据增强：为语音识别模型训练生成多样化的语音样本。

定价与应用示例

定价：Voicebox目前处于研究阶段，尚未作为商业产品发布，因此没有定价信息。Meta暂不计划将商业化。
发布状态：2023年6月发布研究论文和演示页面，模型和代码未公开发布。
滥用防范：Meta开发了专门的分类器，能够区分真实语音和Voicebox生成的语音，准确率较高，以应对潜在的滥用风险。
研究论文：详细技术介绍可查阅Meta AI官网发布的研究论文。
应用示例：在官方演示中，Voicebox可以将一段被狗叫声打断的演讲修复，只需几秒就能生成干净流畅的语音，效果令人惊叹。

Voicebox常见问题

Voicebox是哪个公司开发的？

网页版在线使用入口官网地址是什么？

Voicebox到底是什么？

我想用Voicebox，具体怎么操作？

Voicebox是免费的吗？收费吗？

Voicebox安全吗？会不会被用来诈骗？

Voicebox有哪些特别厉害的功能？

能不能用Voicebox消除录音里的噪音？

Voicebox的数据安全吗？我的音频会上传吗？

Voicebox生成语音的速度快吗？

能不能用Voicebox生成PPT？

能不能用Voicebox生成视频？

Voicebox支持中文吗？