目录
妙幕SmartSub 是一个面向内容创作者、教育工作者及企业用户的智能字幕解决方案。它基于强大的 Whisper 模型进行语音识别,能够将视频和音频文件中的对话快速转化为文字字幕。核心优势在于“本地化处理”,用户的所有文件解析和翻译任务都在自己的电脑上运行,杜绝了数据上传云端的隐私风险。同时,软件整合了百度、火山、微软、DeepSeek、OpenAI、Ollama 等几乎所有主流翻译服务,用户可以灵活配置,实现从生成到翻译的一站式工作流。对 NVIDIA CUDA 和 Apple Core ML 硬件加速的支持,让处理速度得到质的飞跃。
官网入口地址
官方网站:https://smartsub.lxd.one (注:经检测该链接自动跳转,建议直接访问 GitHub 页面获取信息)
下载地址
官方下载与项目主页:https://github.com/buxuku/SmartSub
在 GitHub 页面的 Releases 板块可以找到 Windows、macOS(Intel/Apple芯片)和 Linux 的安装包。macOS 用户也可以通过 Homebrew 方便地安装。
功能介绍
妙幕SmartSub 的功能设计围绕“批量、高效、灵活”展开:
核心字幕处理
-
批量语音转字幕:支持一次性导入多个音视频文件,自动利用 Whisper 模型将语音转为带时间轴的字幕文件。
-
多格式兼容:支持常见的视频和音频格式,无需提前转换。
-
智能 VAD 过滤:内置语音活动检测(VAD)模型,能精准识别有效语音片段,过滤空白和噪音,提高字幕生成效率和准确率。
强大的翻译引擎集成
-
丰富的翻译服务:集成了百度翻译、火山引擎、微软翻译、DeepLX、OpenAI 风格 API(包括 DeepSeek 等)、Ollama 本地模型等,用户可自由选择。
-
灵活的自定义参数:针对 AI 翻译服务,支持在界面中直接配置请求头、请求体等高级参数,兼容各种第三方模型接口,实现精细化控制。
-
翻译结果自定义:可选择只输出翻译后的纯文本字幕,或保留原文与译文双语对照的字幕。
性能优化与硬件加速
-
GPU 加速:在 Windows 和 Linux 上支持 NVIDIA CUDA 加速,软件内可一键下载安装适配的加速包。
-
Apple Core ML 加速:在搭载 Apple 芯片的 Mac 上自动启用 Core ML 加速,显著提升处理效率。
-
并发任务处理:允许用户自定义同时处理的任务数量,充分利用多核 CPU 性能。
辅助与便捷功能
-
字幕校对与纠错:提供工具用于检查和修复生成字幕中常见的时间轴错位、重复等问题。
-
模型管理:内置模型下载与管理功能,支持手动导入模型文件,方便网络受限的用户。
-
字幕文件名自定义:可设置输出字幕的命名规则,以兼容不同播放设备的自动挂载识别。
应用场景
妙幕SmartSub 的应用范围非常广泛:
-
视频创作者:快速为国内外的短视频、长视频、播客生成中英双语或多语种字幕,扩大作品的受众面和影响力。
-
企业培训:为内部培训视频批量添加字幕,或将培训材料翻译后发给海外分支机构,整个过程数据不离开公司电脑,保证信息安全。
-
教育行业:教师可以处理教学录像,生成同步字幕方便学生复习,尤对听障学生或语言学习者帮助很大。
-
字幕组与翻译爱好者:作为高效的生产力工具,先粗翻再精校,大幅提升字幕制作效率。
补充信息
定价与版权:妙幕SmartSub 是一个在 GitHub 上基于 MIT 许可证开源的项目,目前免费,无任何功能限制或付费墙。不过,使用集成的第三方翻译服务(如百度翻译、OpenAI API等)时,你需要自行申请并负担这些服务本身的 API 调用费用。
应用示例:假设你是一名独立游戏开发者,制作了一款包含大量英文配音的角色扮演游戏。你可以使用妙幕SmartSub 一次性导入所有对话音频文件,选择 large 模型保证准确率,然后将生成的英文字幕批量通过 DeepSeek 或 OpenAI 的 API 翻译成中文,得到可直接用于游戏本地化的双语字幕文件。整个过程在本地完成,宝贵的游戏音频素材无需上传网络。
| 源码反馈/咨询 (共有 条反馈) |
妙幕SmartSub常见问题
妙幕SmartSub 是一款装在电脑上的字幕处理软件。它能帮你把视频或音频里的人声自动变成文字字幕,还能把这些字幕翻译成他国家的语言,特别适合做视频、翻译教程的朋友。
它不是一个公司开发的商业软件,而是由开发者 buxuku 在 GitHub 上主导的一个开源项目,汇集了社区的贡献。
用法不复杂。下载安装后,先把你想处理的视频或音频文件拖进去,选一个语音识别模型(比如 base 或 small),它就会开始生成字幕。如果需要翻译,就在设置里填好你申请的翻译服务 API 密钥,选择目标语言就行了。
软件本身是免费的。但要注意,你在使用它调用百度翻译、DeepSeek、OpenAI 这些第三方翻译服务时,那些服务本身会按照翻译的字数或次数收费,这笔钱是给那些服务商的,不是给软件的。
非常安全。这是它的一大亮点。所有语音识别和翻译的计算过程,都在你自己的电脑上完成,视频文件不用上传到任何服务器,有效保护了你的隐私和素材安全。
能。在翻译设置里,你可以选择输出结果的形式。如果你想要中英双语对照的字幕,选择“原字幕加翻译结果”的选项就行,软件会把原文和翻译合并在一句字幕里。
如果你的电脑是 Windows 或 Linux 系统,用的是 NVIDIA 的独立显卡,它支持 CUDA 加速,能在软件设置里一键下载加速包。如果你用的是苹果 M 系列芯片的 Mac,它会自动开启 Core ML 加速。这两种加速都能让处理速度提升好几倍。
准确性取决于你选择的模型和视频本身。软件内置了从 tiny 到 large 多种尺寸的模型。模型越大,理解越准,但处理也越慢,对电脑要求越高。一般用 small 或 base 模型就有不错的效果,如果是专业用途且电脑配置好,用 large 模型效果。
这取决于你的电脑配置和文件大小。如果你开启了 GPU 加速,速度会非常快。一个几十分钟的视频,在几分钟内就处理完了。没有加速的话,主要靠 CPU 运算,时间会长一些。
进行语音识别和翻译是计算密集型任务,处理时 CPU 或显卡的占用率会比较高,这是正常的。软件本身设计得很轻巧,任务完成后资源占用就会降下来。你可以在设置里调整并发任务数量,避免同时处理太多文件导致电脑卡顿。