详情介绍
Edge-TTS 最初是一个Python项目,核心价值在于“打通壁垒”。它通过逆向工程,模拟了微软Edge浏览器与云端语音服务的通信过程,从而让开发者能够在Linux、macOS等任何平台上,都能使用微软最前沿的神经网络语音合成技术。它不是一个有界面的软件,而是一个供开发者调用的库和命令行工具。这意味着你可以将它无缝集成到自己的Python脚本、Web应用或智能家居系统中,让应用拥有“说话”的能力。因开源免费、语音质量高、支持语言丰富(上百种),它在GitHub上获得了极高的关注度,成为了众多开发者的优选TTS解决方案。
官网入口地址
-
项目开源仓库(主要入口):https://github.com/rany2/edge-tts
下载地址
Edge-TTS 本身没有传统意义上的“下载”页面,它是通过Python包管理器进行安装的。安装命令如下:
-
核心库安装:
pip install edge-tts -
推荐安装(包含命令行工具):
pipx install edge-tts
功能介绍
Edge-TTS 虽然小巧,但功能非常实用,主要集中在高质量的语音合成和控制上:
-
海量多语言音色:支持超过170种语音,涵盖中文(普通话、粤语、台湾腔)、英语(美式、英式、澳式)、日语、韩语、法语、德语等。你可以通过
edge-tts --list-voices命令查看所有可用音色。 -
核心语音合成:将提供的文本转换为语音,并保存为音频文件(默认为24kHz、48kbps的高质量MP3格式)。
-
语音参数调节:可以精细调整输出语音的语速、音量和音调,让声音更符合场景需求。,放慢语速用于教学,提高音量用于嘈杂环境。
-
同步生成字幕:在生成音频文件的同时,可以自动输出一个SRT格式的字幕文件,字幕与音频的单词级别时间轴同步,方便制作视频或教学材料。
-
灵活的输出格式:除了默认的MP3,还支持通过调整参数输出多种不同采样率和比特率的MP3、Opus、W等格式的音频流。
-
实时语音播放:配合
edge-playback命令(需要安装mpv播放器),可以不生成文件直接播放语音,方便快速测试。 -
多环境支持:除了原生的Python环境,社区还为 JavaScript/TypeScript(支持Node.js、浏览器、Deno)、Go 和 PHP 等语言开发了相应的版本,让不同技术栈的开发者都能使用。
应用场景
-
内容创作者:快速为视频生成画外音、有声小说或新闻播报,配合字幕文件一键上传,极大提升视频制作效率。
-
教育工作者与学习者:制作语言学习的听力材料,将文本教材转换为可听的语音课件,或为视力障碍学生提供无障碍阅读支持。
-
开发者:为自己的应用程序(如聊天机器人、智能客服、阅读器App)集成语音交互功能,或是在Linux服务器上编写自动化脚本批量生成语音文件。
-
智能家居玩家:通过如 Hass-Edge-TTS 等插件,将Edge-TTS集成到Home Assistant智能家居系统中,让家居设备能用自然的声音播报天气、新闻或状态信息。
他必要信息
-
定价:免费。它是一个开源项目,直接调用了微软Edge的公开服务,无需支付任何费用,也无需申请API密钥。
-
开发与维护:由社区开发者 rany2 发起并维护,采用 GNU Affero General Public License v3.0 或 MIT 等开源协议,用户可以自由使用、修改和分发。
Edge-TTS常见问题
Edge-TTS并不是由微软官方开发的,它是由一位独立开发者(GitHub用户 rany2)发起并维护的开源项目。不过,它调用的是微软Edge浏览器的官方语音合成服务。
Edge-TTS本身不是一个网站,没有网页版在线使用的入口。它是一个代码库和命令行工具。你可以在它的GitHub仓库页面(github.com/rany2/edge-tts)找到所有源代码、安装方法和使用说明。
你可以把它想象成一个“语音合成翻译器”。你给它一段文字,它就能把它变成非常像真人说话的音频文件。最关键的是,它用了微软顶尖的语音技术,而且免费,也不需要安装微软的浏览器就能用。
主要是为开发者设计的工具,如果你会一点电脑基础操作,实也不难。安装只需要在电脑的命令行窗口输入 pip install edge-tts。之后,输入类似 edge-tts --text "你好" --write-media hello.mp3 的命令,就能把“你好”变成一个叫hello.mp3的语音文件了。
放心,它目前是免费的,而且看不到任何收费的计划。因为它是一个开源项目,代码都是公开的,直接调用微软的公开服务,不需要花钱买API key。不过既然是依赖别人的服务,未来如果微软那边有变动,项目也跟着调整。
这个问题问得很好。Edge-TTS是一个本地工具,当你使用时,你的文字内容会被发送到微软的服务器去合成语音。所以,如果你的文本包含高度敏感的商业机密或个人隐私,建议谨慎使用。它并不适合处理绝密信息。
当然有。比如你想让声音听起来更温柔,可以用 --pitch=+20Hz 调高音调;想让教学音频更清晰,可以用 --rate=-20% 放慢语速。还有一个很棒的技巧是用 --write-subtitles output.srt 参数,让它生成音频的同时自动把字幕文件也做了,做视频特别方便。
它的一个很实用的特色功能就是刚刚提到的同步生成字幕。这对做视频的人来说简直是救星,再也不用对着音频手动打轴了。它支持超过170种语音,连粤语、台湾腔这种地方方言都有,选择非常丰富。
本身不能直接生成PPT或视频。但是,它可以作为你制作PPT和视频的得力助手。比如你可以用Edge-TTS先生成一段高质量的解说词音频,然后再把这个音频导入到PPT或视频剪辑软件里,和画面配起来。它解决的是“声音”从哪里来的问题。
本身没有严格限制文本长度。不过,如果文本特别长,比如一整本小说,一次性合成会因为网络超时等原因失败。一个高效的做法是用Python写个脚本,把长文本分成每段一两千字的多个小段,然后批量生成,再把音频拼接起来。
| 分享笔记 (共有 篇笔记) |