目录
Handy的诞生背后有一个有趣的故事。开发者CJ Pais因为手指骨折打了石膏,没常打字,想找一个开源的语音转文字工具来应急,结果发现市面上没有合适的。于是他干脆自己动手开发了Handy。
这款软件的核心优势在于离线运行。传统语音输入往往需要将录音上传到云端服务器进行识别,这个过程中音频数据会经过第三方服务器,存在隐私泄露的风险。而Handy把所有识别工作都放在你的电脑本地完成,录音数据不会离开你的设备。
在技术架构上,Handy基于Tauri框架构建,后端用Rust语言编写,前端使用React和TypeScript。这种组合使得软件安装包小巧,运行时内存占用也比较低。它支持CPU和GPU两种运行模式,如果你电脑有独立显卡,可以在设置中开启GPU加速,识别速度会明显提升。
Handy的使用逻辑非常直观:按住快捷键开始录音,松开快捷键软件自动将识别出的文字粘贴到你当前光标所在的位置。整个过程一气呵成,不需要在软件和文档之间来回切换焦点。
官网入口地址
下载地址
https://handy.computer/download
功能介绍
离线语音识别
Handy内置了OpenAI的Whisper系列模型和NVIDIA的Parakeet V3模型。Whisper模型对多语言支持较好,包括中文、日文、英文等都能准确识别;Parakeet V3模型在英文识别上速度更快、准确率更高。用户可以根据自己的需求在设置中切换模型,首次使用某个模型时需要下载,之后就可以离线使用了。
自动语言检测
如果你说话时会混用多种语言,Handy可以自动检测当前使用的语言并进行正确识别。这个功能在多语言工作环境中特别实用。
全局快捷键输入
这是Handy的核心交互设计。用户可以在设置中自定义录音快捷键,按下后软件开始录音,松开后自动将转写结果粘贴到当前活动窗口的光标位置。整个过程不需要切换窗口或点击任何按钮,打字体验非常流畅。
转录历史记录
Handy会保存所有的录音文件和转写结果,用户可以在左侧历史面板中查看之前的转录记录。这对于需要回顾会议内容或整理采访录音的场景很有帮助。
静音过滤功能
软件内置了VAD语音活动检测功能,可以自动过滤掉录音中的静音片段和停顿,让转写结果更加干净利落。
模型灵活切换
用户可以根据自己的电脑配置和使用场景选择合适的模型。Whisper有tiny、base、small、medium、large等多个版本,模型越大识别越准确但对硬件要求也越高。Parakeet V3则针对英了专门优化,速度和准确率都很出色。
应用场景
内容创作者
视频创作者、播客主播可以用Handy快速生成字幕或节目文稿,比手动打字效率高很多。
学生和研究者
听讲座、记笔记时用Handy直接转写,不用边听边打字导致漏听重点内容。整理访谈录音时也可以快速获得文字稿。
会议记录
工作会议中打开Handy,重要发言都能实时转为文字记录,会后整理会议纪要轻松很多。
无障碍输入
对于有打字困难的人士,比如手部受伤、腱鞘炎患者或者老年人,Handy提供了一种省力的输入方式。
多语言工作者
需要频繁输入不同语言内容的人,Handy的自动语言检测功能可以减少手动切换输入法的麻烦。
定价
Handy免费,没有任何隐藏收费。它是一个开源项目,所有人都可以免费下载使用,也可以查看和修改源代码。
| 源码反馈/咨询 (共有 条反馈) |
Handy常见问题
Handy由一位名叫CJ Pais的个人开发者创建和维护。他开发这款软件的初衷是因为自己手指骨折打了石膏没法打字,发现市面上没有好用的开源语音转文字工具,于是决定自己写一个。项目托管在GitHub上,目前已经有不少开发者参与贡献代码。
Handy是一款桌面端的语音转文字工具。它不像讯飞输入法那样需要联网才能用,所有语音识别都在你自己的电脑上完成。你可以把它理解成一个按着说话、松开出字的智能输入助手,支持中英文等多种语言的识别。
安装并打开Handy后,先在设置里选择你的麦克风设备,然后选择想要使用的语音识别模型(比如Whisper或Parakeet V3)。首次使用某个模型时需要下载,下载完成后就可以离线使用了。 接着在设置中自定义一个快捷键,默认是Ctrl加空格键。设置好之后,随便打开一个能打字的地方,比如记事本、Word或者网页输入框,按住快捷键开始说话,说完松开按键,刚才说的话就会变成文字出现在光标位置。整个过程非常自然流畅。
免费。Handy是一个开源软件,没有任何收费版本或内购项目。你可以免费下载、免费,甚至可以免费查看和修改源代码。
从隐私保护角度看,Handy非常安全。所有语音识别都在本地电脑上完成,录音文件不会上传到任何服务器,不存在数据被第三方获取的风险。 从软件稳定性角度看,Handy基于Tauri框架构建,后端使用Rust语言,运行比较稳定。不过由于语音识别模型本身存在一定的识别错误率,尤是嘈杂环境下,转写结果需要手动修正一下。
选择合适的识别模型很关键。如果你的电脑配置比较高,建议下载Whisper large模型,识别准确率;如果电脑配置一般或者主要识别英文,可以试试Parakeet V3,速度快且准确率也不错。 说话时尽量吐字清晰、语速平稳,不要忽快忽慢。背景噪音尽量控制一下,风扇声、键盘声都会影响识别效果。 录音时建议用头戴式麦克风或者离电脑近一点的桌面麦克风,比笔记本内置麦克风的收音效果好很多。 经常使用的短语或专业术语,可以在说话时稍微放慢语速、加重读音,这样模型识别会更准确一些。
Handy的特色是松手即粘贴的设计,不需要在软件和文档之间切换焦点,按下说话松开出字,符合直觉操作习惯。这个设计比传统的先录音再手动复制粘贴的方式效率高很多。 离线运行是另一个核心优势。没有网络的场景下也能用,而且录音数据不经过云端,适合处理敏感信息。 跨平台支持也很实用。Windows、macOS、Linux都能用,在不同系统之间切换工作环境时,操作习惯保持一致。 开源可扩展的属性让有技术能力的用户可以自己修改代码,比如接入自己的语音识别引擎或者添加额外的后处理功能。
非常安全。Handy的语音识别全部在本地运行,录音文件保存在你自己的电脑硬盘上,不会上传到任何云端服务器。这意味着你的对话内容、会议记录、笔记等隐私数据不会被第三方接触到。 对于有数据安全要求的企业用户来说,Handy是一个比较理想的语音输入方案。相比那些需要联网上传音频的云端语音服务,Handy的数据由你自己掌控。
对于需要频繁输入文字的用户来说,Handy确实能提升效率。按住说话就能出字,比打字快很多,尤适合长篇内容的录入。离线运行也省去了网络延迟的等待时间。 不过也有一些需要注意的地方。语音识别不是百分之百准确,尤是中文里同音字比较多,偶尔需要手动修正。另外首次下载模型时需要联网,模型文件比较大,Whisper large模型有好几个GB,网速慢的话需要等一会儿。低配电脑上跑大模型时会有明显延迟。 如果你经常需要输入大段文字、手打字容易累、或者对数据隐私比较在意,Handy值得一试。
这取决于你选择的语音识别模型。Whisper tiny和base模型资源占用较低,普通办公电脑都能流畅运行。但如果选择Whisper large这样的高精度模型,对内存和CPU的要求就比较高了,建议至少有8GB以上内存并且使用独立显卡加速。 Handy本身作为软件占用资源不多,主要是语音识别模型在运行时会有一定的计算开销。如果电脑配置一般,建议从小模型开始尝试,识别效果能满足日常使用的话就不需要追求大模型了。
Handy支持Windows、macOS和Linux三大桌面操作系统。Windows版本提供exe安装包,macOS版本提供dmg安装包,Linux版本支持x64架构。开发者近期还增加了对NixOS的支持。