功能介绍
评论列表

详情介绍

在AI时代,语音输入正在重塑我们的办公方式。国外的 Wispr Flow 虽然体验出色,但对于中文用户来说,不仅需要支付每月12美元的订阅费,还存在数据上云和中文适配的隐忧。

蛐蛐(QuQu)正是为了解决这些痛点而生。它是一位热爱技术的开发者为中文社区打造的礼物。这款基于 Node.js 和 Electron 构建的桌面应用,将强大的本地语音识别能力与可自由配置的大语言模型结合起来。这意味着,你说出的每一句话,都会先通过阿里巴巴的 FunASR 模型在本地被精准识别为文字,然后根据你的设置,可以选择本地的、或者通过 API 接入的国产大模型(如通义千问、Kimi等)进行智能优化,无缝粘贴到你正在使用的应用里。整个过程行云流水,且因为核心的识别步骤离线,极大地保障了你的数据隐私安全。

官网入口地址:

项目的官方代码仓库和所有信息都托管在 GitHub 上:https://github.com/yan5xu/ququ

下载地址:

蛐蛐目前主要通过源代码进行部署。你可以访问 GitHub 仓库的 Releases 页面,查看是否有编译好的对应系统(macOS、Windows、Linux)的安装包。如果暂时没有,则需要通过 Git 克隆仓库并在本地进行编译运行。

功能介绍:

蛐蛐不仅仅是一个语音转文字的工具,它更像一个由你掌控的智能语音助手。它的核心功能可以拆解为以下几个层面:

  1. 顶尖本地中文识别:内置了阿里巴巴的 FunASR Paraformer 模型。这个模型在本地运行,专门针对中文进行了深度优化,不仅能听懂标准的普通话,对中文互联网上流行的网络用语、略带口音的表述甚至是一些专业术语,都有很高的识别率 。

  2. 独创两段式智能引擎 (ASR + LLM):这是蛐蛐最核心的工作流程。

    • 第一阶段(精准转写):通过本地模型将你的语音实时转写成文字,这个阶段保证了速度和隐私。

    • 第二阶段(智能优化):转写后的文字会被发送到你配置的大语言模型中。这个大模型可以是本地部署的,也可以是通义千问、Kimi、智谱AI等国产大模型的API。模型会根据指令自动帮你过滤掉“嗯”、“啊”之类的口头禅,修正口误,把一段逻辑混乱的口语整理成逻辑清晰的书面语 。

  3. 开发者友好与代码识别:能准确识别编程中的专业术语和命名规范, camelCase(驼峰命名)和 snake_case(蛇形命名)。程序员可以直接用语音写代码、写注释,甚至通过自定义指令生成特定格式的代码块 。

  4. 全局快捷操作与无缝粘贴:默认按下 F2 键即可在任何界面下唤醒录音。当你结束说话后,经过识别和优化处理的文本会自动粘贴到你当前光标所在的位置,比如文档、聊天框或代码编辑器,实现了“所說即所得”的流畅体验 。

  5. 高度可配置与国产模型生态:你可以在设置里自由选择或切换后端 AI 模型。支持所有兼容 OpenAI API 的服务,并优先适配了国内主流模型,让国内用户享受更低的延迟和成本 。

  6. 真正的跨平台支持:无论是 macOS、Windows 10+ 还是 Linux 系统,都能运行 。

应用场景:

  • 内容创作者与职场人士:快速撰写文章、邮件,整理会议纪要。只需要对着电脑口述思路,蛐蛐就能帮你生成格式工整的文稿,大大节省打字时间 。

  • 程序员:用语音编写代码、写 Git 提交信息、撰写技术文档。特别是对于需要双手专注思考逻辑的场景,语音输入能带来全新的编码体验 。

  • 学生与研究人员:在文献阅读或论文写作时,用语音快速记录灵感片段和读书笔记,让想法及时被捕捉 。

  • 注重隐私的任何人:任何不希望自己的语音数据被上传到云端服务器进行处理的用户,都可以放心使用蛐蛐。

定价信息

免费,且开源。用户无需支付任何订阅费用,这是它相较于 Wispr Flow 的优势之一 。

蛐蛐 (QuQu)常见问题

本文标签