详情介绍
在AI时代,语音输入正在重塑我们的办公方式。国外的 Wispr Flow 虽然体验出色,但对于中文用户来说,不仅需要支付每月12美元的订阅费,还存在数据上云和中文适配的隐忧。
蛐蛐(QuQu)正是为了解决这些痛点而生。它是一位热爱技术的开发者为中文社区打造的礼物。这款基于 Node.js 和 Electron 构建的桌面应用,将强大的本地语音识别能力与可自由配置的大语言模型结合起来。这意味着,你说出的每一句话,都会先通过阿里巴巴的 FunASR 模型在本地被精准识别为文字,然后根据你的设置,可以选择本地的、或者通过 API 接入的国产大模型(如通义千问、Kimi等)进行智能优化,无缝粘贴到你正在使用的应用里。整个过程行云流水,且因为核心的识别步骤离线,极大地保障了你的数据隐私安全。
官网入口地址:
项目的官方代码仓库和所有信息都托管在 GitHub 上:https://github.com/yan5xu/ququ
下载地址:
蛐蛐目前主要通过源代码进行部署。你可以访问 GitHub 仓库的 Releases 页面,查看是否有编译好的对应系统(macOS、Windows、Linux)的安装包。如果暂时没有,则需要通过 Git 克隆仓库并在本地进行编译运行。
功能介绍:
蛐蛐不仅仅是一个语音转文字的工具,它更像一个由你掌控的智能语音助手。它的核心功能可以拆解为以下几个层面:
-
顶尖本地中文识别:内置了阿里巴巴的 FunASR Paraformer 模型。这个模型在本地运行,专门针对中文进行了深度优化,不仅能听懂标准的普通话,对中文互联网上流行的网络用语、略带口音的表述甚至是一些专业术语,都有很高的识别率 。
-
独创两段式智能引擎 (ASR + LLM):这是蛐蛐最核心的工作流程。
-
第一阶段(精准转写):通过本地模型将你的语音实时转写成文字,这个阶段保证了速度和隐私。
-
第二阶段(智能优化):转写后的文字会被发送到你配置的大语言模型中。这个大模型可以是本地部署的,也可以是通义千问、Kimi、智谱AI等国产大模型的API。模型会根据指令自动帮你过滤掉“嗯”、“啊”之类的口头禅,修正口误,把一段逻辑混乱的口语整理成逻辑清晰的书面语 。
-
-
开发者友好与代码识别:能准确识别编程中的专业术语和命名规范,
camelCase(驼峰命名)和snake_case(蛇形命名)。程序员可以直接用语音写代码、写注释,甚至通过自定义指令生成特定格式的代码块 。 -
全局快捷操作与无缝粘贴:默认按下 F2 键即可在任何界面下唤醒录音。当你结束说话后,经过识别和优化处理的文本会自动粘贴到你当前光标所在的位置,比如文档、聊天框或代码编辑器,实现了“所說即所得”的流畅体验 。
-
高度可配置与国产模型生态:你可以在设置里自由选择或切换后端 AI 模型。支持所有兼容 OpenAI API 的服务,并优先适配了国内主流模型,让国内用户享受更低的延迟和成本 。
-
真正的跨平台支持:无论是 macOS、Windows 10+ 还是 Linux 系统,都能运行 。
应用场景:
-
内容创作者与职场人士:快速撰写文章、邮件,整理会议纪要。只需要对着电脑口述思路,蛐蛐就能帮你生成格式工整的文稿,大大节省打字时间 。
-
程序员:用语音编写代码、写 Git 提交信息、撰写技术文档。特别是对于需要双手专注思考逻辑的场景,语音输入能带来全新的编码体验 。
-
学生与研究人员:在文献阅读或论文写作时,用语音快速记录灵感片段和读书笔记,让想法及时被捕捉 。
-
注重隐私的任何人:任何不希望自己的语音数据被上传到云端服务器进行处理的用户,都可以放心使用蛐蛐。
定价信息
免费,且开源。用户无需支付任何订阅费用,这是它相较于 Wispr Flow 的优势之一 。
蛐蛐 (QuQu)常见问题
蛐蛐不是商业公司开发的,它是一款个人开发者发起的开源公益项目。项目的发起人和主要维护者是 GitHub 用户 yan5xu,得益于开源社区,任何开发者都可以为它贡献代码。
蛐蛐目前是一款桌面端应用,没有网页版。它的所有信息和源代码都在 GitHub 上,你可以把这个地址看作它的官网: https://github.com/yan5xu/ququ 。
你可以简单理解为一个专门为中文用户设计的、保护隐私的开源版“Wispr Flow”。它是一个桌面软件,能让你用嘴巴代替键盘打字,并且还能自动帮你把口语整理成更得体、更专业的书面语。
你需要从 GitHub 下载或编译安装它。安装好后,是这样用的: 打开蛐蛐软件,在设置里填上你使用的大模型 API 信息(比如通义千问的 API Key)。 在任何想输入文字的地方(比如 Word、微信聊天框),按下默认的全局快捷键 F2。 开始对着电脑说话。 说完后再按一下 F2 或者稍作停顿,蛐蛐就会把转写并优化好的文字自动粘贴到刚才的光标位置。
它是免费的。项目本身不收取任何费用。不过要注意,如果你在设置里配置了需要付费的第三方大模型 API(比如阿里云的通义千问),那么调用这些 API 产生的费用是由你自己支付给对应的服务商的,蛐蛐本身不收费。
在隐私安全方面很可靠,但在软件稳定性上因为是新兴开源项目,还在完善中。它的核心语音识别是在你电脑本地完成的,不需要联网,所以你的原始语音不会被上传,这是它的安全优势。不过,如果你开启了“智能优化”功能,转写后的文字会发送给你配置的大模型(如果你配置的是在线模型),所以选择可信赖的模型服务商也很重要。
你可以试试这几个技巧: 自定义提示词:在设置里修改发给大模型的指令。比如加上“请把以下内容整理成Markdown格式的待办事项”,让它更符合你的习惯。 利用代码模式:写代码前,先想好命名规范(比如函数名用驼峰),直接口述“定义一个函数,名字是 getUserData”,它会识别得很准。 分场景说话:比如你可以说“写一封邮件,内容是……”,或者“总结一下这段话……”,让大模型更好地理解你的意图。
特色是“理解并重塑语言”。除了打字,它还能: 实时会议纪要员:开会时开着它,结束后直接得到一份整理好的会议记录。 智能写作助手:你只需口述零散的想法,它能帮你组织成一篇结构清晰的文章。 编程搭档:不仅可以写代码,还能用语音生成代码注释或技术文档。
非常安全。最核心的语音数据全程都在你的电脑里处理,不会经过任何第三方服务器。只有当你需要润色功能时,转写后的文字才会根据你的配置发送给你指定的大模型。你可以通过选择本地部署大模型,或信任的国内大模型 API 来进一步控制数据流向。
好不好用取决于你的需求和动手能力。如果你经常需要大量文字输入、注重隐私、想省下 Wispr Flow 的月费,并且稍微有点动手能力(能看懂基础的安装教程),那它会非常好用,堪称效率神器。但如果你不想折腾软件配置,只想开箱即用,那可以再等等社区提供更傻瓜的一键安装包。
蛐蛐本身不直接生成PPT文件。但你可以利用它的智能优化能力,通过口述清晰地表达出PPT的大纲、每一页的标题和要点,然后让配置的大模型帮你把这些内容整理成 Markdown 或大纲格式,再复制到 PowerPoint 或 WPS 里进行排版。
不能。蛐蛐是一款专注于语音输入和文本处理的工具,它的核心功能是把语音变成文字,并对文字进行优化。视频生成属于另一个技术领域,目前不在它的功能范围内。
软件的本身没有强制限制,但实际使用中会受限于你电脑的配置和你所配置的大模型。本地语音识别理论上可以处理很长的音频,但交给大模型优化时,会受限于那个模型的上下文长度(4千、8千或更多 token)。所以一次输入太长的话,需要分成几次来完成。
| 分享笔记 (共有 篇笔记) |