详情介绍
Voicebox是Meta AI研究团队于2023年6月推出的新一代生成式语音模型,代表了语音合成技术的重大突破。与传统文本转语音系统不同,Voicebox采用了一种名为"流匹配"的非自回归方法,能够通过学习解决文本引导的语音填充任务,在60K小时英语数据和50K小时多语言数据训练基础上,实现跨多种语音任务的上下文学习。
Voicebox的核心创新在于非自回归的流匹配架构。传统自回归模型需要按顺序逐个预测音频片段,生成速度慢且容错性差。而Voicebox能够同时考虑上下文信息,生成语音的速度可达自回归模型的20倍,同时保持出色的自然度和准确性。
Meta开发Voicebox的初衷是为虚拟助手、元宇宙中的非玩家角色提供更自然的语音体验,同时帮助视障人士通过朋友的声音来获取文本信息。考虑到这项技术被滥用的风险,如未经授权复刻他人声音,Meta决定暂时不公开Voicebox的模型和代码,但同时也开发了能够区分真实语音和AI生成语音的分类器,以应对潜在的滥用风险。
Voicebox的研究成果展示了生成式语音模型的巨大潜力,也为未来安全、负责任地部署此类技术奠定了基础。
官网入口地址
Voicebox的官方研究展示页面是:https://voicebox.metalab.com/
Meta AI官方博客介绍:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
下载地址
目前,Voicebox的模型和代码尚未公开发布。Meta出于对技术被滥用的担忧,决定暂不公开模型权重和代码。但开发者可以通过官方演示页面体验Voicebox的功能示例,并查看研究论文了解技术细节。
功能介绍
Voicebox作为一款生成式语音模型,具备多种创新功能:
-
零样本文本转语音合成
通过上下文学习,Voicebox可以仅凭一个参考音频(约2-3秒)和待合成的文本,生成与参考音频在音色、背景噪音、说话风格上一致的语音。这意味着即使用户没有见过特定说话人的大量数据,也能准确模仿声音。 -
跨语言风格转换
Voicebox支持将一种语言的语音风格迁移到另一种语言。,用户可以用法语音频作为提示,生成带有法语口音和风格的英语语音。这一功能未来有望让每个人用自己的声音说任何语言。 -
瞬态噪音消除
在录音过程中,如果被门铃、狗叫等突发噪音打断,Voicebox可以像魔法橡皮擦一样,重新生成被噪音污染的语音片段,无需重新录制整个音频。这为播客、视频创作者提供了极大的便利。 -
内容编辑
Voicebox允许用户在不重新录制的情况下修改音频中的说错内容。只需编辑对应的文本,模型就能生成与原始音频在音色、背景、韵律上一致的修正部分,让人难以察觉编辑痕迹。 -
多样化语音生成
Voicebox能够不依赖任何参考音频,通过采样生成独特且富有表现力的语音风格。这为创意工作者提供了丰富的音频素材库。 -
六种语言支持
多语言版本的Voicebox在50K小时数据上训练,覆盖英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言。 -
上下文感知
与只能基于过去信息预测的自回归模型不同,Voicebox的非自回归架构使能够同时利用过去和未来的上下文进行预测,生成结果更加自然连贯。 -
高效生成速度
Voicebox的生成速度比进的自回归模型快20倍,大大提升了实际应用中的效率。
应用场景
Voicebox的研究成果展示了广阔的应用前景:
-
虚拟助手与元宇宙角色:为Siri、Alexa等虚拟助手提供更自然的语音,为元宇宙中的NPC赋予真实人声。
-
无障碍辅助:帮助视障人士用朋友、家人的声音朗读文本信息,提升亲切感。
-
创意内容生产:播客、视频创作者可以快速修正录制错误,无需重新录音。
-
影视配音:跨语言风格转换功能可用于将配音内容转换为原演员的声音。
-
个性化语音产品:企业可为用户提供个性化的语音助手声音。
-
语音数据增强:为语音识别模型训练生成多样化的语音样本。
定价与应用示例
-
定价:Voicebox目前处于研究阶段,尚未作为商业产品发布,因此没有定价信息。Meta暂不计划将商业化。
-
发布状态:2023年6月发布研究论文和演示页面,模型和代码未公开发布。
-
滥用防范:Meta开发了专门的分类器,能够区分真实语音和Voicebox生成的语音,准确率较高,以应对潜在的滥用风险。
-
研究论文:详细技术介绍可查阅Meta AI官网发布的研究论文。
-
应用示例:在官方演示中,Voicebox可以将一段被狗叫声打断的演讲修复,只需几秒就能生成干净流畅的语音,效果令人惊叹。
Voicebox常见问题
Voicebox是由Meta AI研究团队开发的,也就是Facebook的母公司Meta的人工智能研究部门。这个团队之前还开发了Llama系列大语言模型。
官方研究展示页面的地址是https://voicebox.metalab.com/ 上面有大量的语音示例,包括噪音消除、内容编辑、跨语言风格转换等功能的演示,你可以直接在线试听效果。
Voicebox是Meta推出的新一代语音生成AI模型,它可以生成极逼真的语音。跟普通文本转语音工具不同,它不仅能念文字,还能编辑修改已有的音频、消除背景噪音,甚至用一个人的声音去说另一种语言。
很遗憾,Voicebox目前还不能使用。Meta考虑到这项技术被滥用,比如有人会用它未经授权复刻别人的声音,所以暂时没有公开模型和代码。你目前只能在官方演示页面听听效果,或者阅读研究论文了解技术细节。
因为Voicebox还没有正式发布,所以不存在收费的问题。目前它只是一个研究项目,Meta没有公布任何商业化计划。如果你期待使用它,需要等待未来的消息。
Meta自己也意识到了这个风险。Voicebox复刻声音的能力太强了,确实被用来做语音诈骗。所以Meta决定不公开模型,而且还专门开发了一个检测工具,能分辨一段语音是真人说的还是Voicebox生成的,准确率还挺高。这种负责任的态度值得肯定。
最厉害的是它只凭2秒的音频就能模仿一个人的声音,还能让这个人说从来没学过的话。第二个厉害之处是它能编辑已有的音频,比如把说错的一个词改掉,改完的效果跟原来一模一样,听不出拼接痕迹。第三个是跨语言风格转换,让一个只会说法语的人用他的声音说出流利的英语。
可以,这是Voicebox的亮点功能之一。如果录音中途被门铃、狗叫、汽车喇叭打断,它能把被噪音污染的片段重新生成一遍,恢复成干净流畅的语音。这对播客主、视频创作者来说简直是神器。
目前Voicebox还没有开放使用,所以不存在上传问题。如果未来Meta决定发布,相信会有详细的数据隐私政策说明。从研究角度看,Meta开发检测分类器的做法表明他们对数据安全很重视。
非常快。Meta官方数据显示,Voicebox比进的自回归模型快20倍。这意味着别人生成一个句子要等几秒,它零点几秒就搞定了。这种速度优势让它有潜力应用于实时语音交互场景。
Voicebox是做语音生成的,不能直接生成PPT。但你可以用它为PPT生成配音,特别是如果你想要某个人声风格的旁白,它能用极短的样本模仿出来。这样你就可以为PPT配上想要的语音,做出自动播放的演示。
Voicebox本身不生成视频画面,但它可以为视频生成高质量的配音和旁白。比如你做完了视频画面,可以用它来生成角色对话、旁白解说,尤是需要特定人声风格的场景。配合视频剪辑软件,就能完成整个视频制作。
Voicebox支持英语、法语、德语、西班牙语、波兰语和葡萄牙语这六种语言,暂不支持中文。不过Meta未来会扩展语言支持,毕竟中文是世界上使用人数最多的语言之一。
| 分享笔记 (共有 篇笔记) |