精选工具

您现在位置> 首页 > AI工具箱 > AI开源框架
小智AI聊天机器人
小智AI聊天机器人是一个充满趣味性的开源硬件项目,由开发者“虾哥”发起。它的目标是让普通人也能用较低的成本,亲手制作一个能与你进行流利语音对话的实体AI设备。这个小机器人支持Wi-Fi和4G连接,不仅能听懂普通话,还能识别粤语、英语、日语等多种语言,具备离线语音唤醒、声纹识别、短期记忆等功能,甚至可以连接到你的智能家居系统,成为一个会说话的智能家居控制中心。
Edge-TTS
Edge-TTS 是一个强大的开源工具,它能让你免费调用微软Edge浏览器背后的在线文本转语音服务。无需复杂的API密钥,无需Windows系统,只需几行命令或Python代码,你就可以将文字转换成自然流畅的语音,并导出为MP3文件或同步生成字幕,适用于内容创作、智能助手、辅助学习等多种场景。
DeepFlow
DeepFlow是一款由云杉网络开源的面向云原生和AI应用的全栈可观测性平台。它基于eBPF技术实现零侵扰数据采集,无需修改业务代码即可自动获取指标、日志、追踪和性能剖析信息。通过全栈关联和高性能存储,DeepFlow能够帮助运维和开发人员在复杂的容器化、微服务及AI分布式训练环境中,快速定位故障根因,保障业务连续性。
EmotiVoice易魔声
EmotiVoice易魔声是一款由网易有道推出的开源、免费的文本转语音引擎。它的亮点是支持中英文双语,内置超过2000种音色,并具备强大的情感合成能力。用户只需简单操作,就能让生成的语音带有快乐、悲伤、愤怒等多种情绪,极大地提升了语音的自然度和表现力,适用于有声书、虚拟主播、教育软件等多种场景。
Stagehand
Stagehand是一个创新的AI驱动浏览器自动化框架,它巧妙地将传统代码的精确性与自然语言的灵活性结合在一起。基于Playwright构建,它允许开发者用自然语言指令让AI理解和操作网页,同时也能在必要时编写精确代码进行微调,为网页测试、数据抓取和复杂流程自动化提供了一个高效、可靠的解决方案。
RAGFlow
RAGFlow是一个结合了大型语言模型与深度文档理解技术的开源检索增强生成引擎。它的核心目标是为企业级应用提供极准确、有据可查的问答服务。通过智能解析PDF、Word、PPT、表格等复杂格式文档中的布局和语义,RAGFlow能有效减少AI的“幻觉”问题,确保每一个回答都清晰引用自原始文档,让数据推理过程更可靠、结果更可信。
InfiniteTalk
InfiniteTalk是一款的开源数字人框架,通过创新的稀疏帧视频配音技术,能将一张静态照片和一段音频转化为口型精准、表情丰富、动作自然的无限时长说话视频。它打破了传统数字人只能短时间“对口型”的限制,真正实现了从“面部动起来”到“全身演起来”的质变。
TradingAgents
TradingAgents是一个基于大语言模型的多智能体金融交易框架,它通过模拟真实交易机构的团队协作模式,将基本面分析师、情绪分析师、技术分析师、交易员和风险管理师等角色集于一身。多个AI智能体分工协作,通过结构化报告和自然语言辩论,整合多维度数据形成交易决策。在苹果、谷歌等股票的测试中,这个开源框架在收益率和风险控制上都比传统策略表现更好,为量化交易研究提供了一个全新的实验平台。
UI-TARS
UI-TARS是字节跳动开源的纯视觉驱动多模态智能体模型,它能像人眼一样观察屏幕,通过自然语言指令自动完成鼠标点击、键盘输入、拖拽滚动等操作,支持桌面应用、手机控制和游戏交互等多种场景,让AI真正“动手”帮你干活。
CozeWorkflows
风哥AI工作流库是一个开源免费的Coze平台工作流,由AI博主风哥开发维护,目前已收录超过200个可直接导入使用的JSON工作流文件。覆盖视频生成、文档处理、表格提取、数字人、音乐创作等全场景AI任务,让用户无需编程基础也能零代码搭建复杂的AI自动化流程。无论你是自媒体创作者、运营人员还是普通学习者,都能在这里找到现成的效率工具。

AI开源框架

Eino
Eino是字节跳动开源的一款基于Go语言的大模型应用开发框架,提供一个简单、可扩展、可靠且高效的开发环境。它借鉴了LangChain、LlamaIndex等社区优秀项目的理念,并结合了字节内部(如豆包、抖音)的丰富实践经验,更贴合Go语言的编程规范。Eino通过标准化的“组件”抽象和强大的“编排”能力,让开发者可以像搭积木一样,灵活地组合各种功能模块(如ChatModel、Retriever、Tool),快速构建从简单聊天机器人到复杂多智能体系统的各类AI应用。
GPT-SoVITS
GPT-SoVITS是一个的开源语音合成与克隆工具,它结合了GPT的语言理解能力和SoVITS的声学建模技术,实现了惊人的低资源语音克隆。你只需提供5秒钟的原始音频样本,它就能即时学习并模仿你的声音,说出任何你想说的文本,并支持中文、英语、日语、韩语、粤语五种语言的跨语种合成。项目提供了直观的WebUI界面,集成了从数据处理到模型训练、推理的全套工具,让零基础的爱好者也能轻松体验AI声音克隆的魅力。
MotionAgent
MotionAgent是阿里云魔搭社区开源的一站式视频生成工具,它像一个全能的AI电影工作室,能够将你的一个简单创意,自动转化为包含完整剧本、系列剧照、动态视频和背景音乐的短片。你只需提供故事主题或脑洞,它就能驱动大语言模型编写剧本,利用文本生成图像模型创作剧照,再通过核心的视频生成模型让画面动起来,配上合适的音乐,让每个人都能轻松成为自己故事的导演。
AI-Media2Doc
AI-Media2Doc是一个开源免费的AI图文创作助手,它能一键将视频或音频文件转化为多种风格的文档。无论你想把播客内容整理成知识笔记,还是把视频素材快速变成小红书种草文案、公众号文章,甚至是思维导图,它都能帮你自动完成。项目支持本地部署,无需登录注册,所有处理都在你自己的电脑上运行,用极低的成本实现了音视频内容到结构化文档的高效转化。
LlamaIndex
LlamaIndex是一个专门为大型语言模型应用设计的数据框架,它充当了连接私有数据与大模型能力的桥梁。你可以把它理解为一个数据“加工厂”和“检索器”,它能将各种格式的原始数据(如PDF、数据库、API等)进行连接、结构化、索引,最终通过一个智能的检索接口,让大模型能够高效地获取和利用你的私有知识,从而生成更准确、更有依据的回答,是构建检索增强生成应用的核心工具。
awesome-llm-apps
awesome-llm-apps是一个由开发者社区维护的开源项目,它像一个精心策划的“应用超市”,收录了大量基于大语言模型的开源应用示例。无论你想学习如何构建一个检索增强生成问答系统、一个多智能体协作团队,还是一个能听懂话的语音助手,都能在这里找到可以直接运行、学习和修改的参考代码。它使用OpenAI、Anthropic、Gemini以及Llama、Qwen等主流模型构建,是开发者探索LLM应用开发边界的起点。
TradingAgents-CN
TradingAgents-CN是一个为中文用户优化的开源金融交易决策框架。它创新地引入“多智能体协作”理念,模拟一个由市场分析师、基本面研究员、新闻舆情专家、风险控制官组成的专业投研团队。你只需输入股票代码,这个AI团队就会分工协作、甚至内部辩论,最终为你生成一份有数据、有逻辑、可解释的投资分析报告,让专业级的投研能力触手可及。
Bytebot
Bytebot是一个开源的AI桌面代理框架,它的核心理念是给AI配备一整的、容器化的虚拟电脑。通过自然语言指令,你可以让AI像人一样操作这个桌面环境--打开浏览器、编辑文档、运行软件、处理文件,从而自动化完成那些跨越多步骤、多应用的复杂电脑任务,让你从重复性的工作中解放出来。
小智AI聊天机器人
小智AI聊天机器人是一个充满趣味性的开源硬件项目,由开发者“虾哥”发起。它的目标是让普通人也能用较低的成本,亲手制作一个能与你进行流利语音对话的实体AI设备。这个小机器人支持Wi-Fi和4G连接,不仅能听懂普通话,还能识别粤语、英语、日语等多种语言,具备离线语音唤醒、声纹识别、短期记忆等功能,甚至可以连接到你的智能家居系统,成为一个会说话的智能家居控制中心。
MultiTalk
MultiTalk是一个的开源AI框架,它能让你用几张照片和几段音频,就生成一段栩栩如生的多人对话视频。无论是让真人照片聊天、让卡通角色唱歌,还是创建虚拟讲师的教学视频,它都能实现精准的唇形同步和自然的肢体互动,为内容创作、影视预制作和娱乐社交等领域带来了全新的性。
PoloAPI
PoloAPI是一个专业的AI大模型聚合API服务平台,为开发者和企业提供一站式、高性价比的多模型调用解决方案。它通过统一的接口,整合了OpenAI、Claude、Gemini、DeepSeek等主流及主流国产大模型,解决了多模型接入、管理和成本控制的难题。平台强调高性能、高稳定性和企业级安全,提供智能调度、实时监控和清晰透明的计费服务,帮助用户快速、稳定、经济地构建AI应用。
olmOCR
olmOCR是由著名的艾伦人工智能研究所开源的OCR工具,它利用先进的视觉语言模型,专门用于将PDF、扫描件甚至图片,高精度地转换为结构清晰、可读性强的Markdown文本。它能智能识别并保留文档中的复杂元素,如方程式、表格、多栏布局,并自动去除页眉页脚,确保输出的文本顺序符合自然阅读逻辑,是处理复杂文档的数字转化利器。
LocalGPT
LocalGPT是一个运行在你本地电脑上的开源工具,让你能与自己的文档进行私密对话。它相当于一个本地的“文档问答助手”,所有操作都在你的设备上完成,无需联网,确保你的数据绝对安全。无论是PDF、Word还是TXT文件,你都可以像聊天一样向它提问,它会基于文档内容给出答案,是处理敏感信息和保护个人隐私的理想选择。
RAGFlow
RAGFlow是一个结合了大型语言模型与深度文档理解技术的开源检索增强生成引擎。它的核心目标是为企业级应用提供极准确、有据可查的问答服务。通过智能解析PDF、Word、PPT、表格等复杂格式文档中的布局和语义,RAGFlow能有效减少AI的“幻觉”问题,确保每一个回答都清晰引用自原始文档,让数据推理过程更可靠、结果更可信。
AstrBot
AstrBot是一个开源免费的AI聊天机器人及开发框架,支持将大语言模型接入QQ、微信、Telegram、飞书等主流消息平台。它提供可视化管理面板、丰富的插件系统和Agent能力,让个人和企业能快速搭建智能客服、个人AI助手或群聊管理机器人。无论是DeepSeek、OpenAI还是本地部署的模型,都能一键接入,实现多轮对话、图片理解和语音交互。
WrenAI
WrenAI是一款开源的人工智能数据分析工具,它的核心理念是“用自然语言对话数据”。无论你是业务人员还是数据分析师,都可以直接用日常用语提问,WrenAI会将问题自动转换成精确的SQL代码,从连接的数据库中查询结果,并以图表或报告的形式直观呈现,从而大幅降低数据获取的门槛,加速决策过程。
copilotkit
CopilotKit是一个开源的智能体应用框架,帮助开发者快速为任何应用(特别是React和Next.js应用)集成功能强大的AI助手。它解决了将后端AI能力与前端用户界面连接起来的“一公里”难题,让开发者能通过简单的组件和钩子,赋予AI读取应用状态、执行操作和渲染动态用户界面的能力。
LangUI
LangUI 是一个开源的、为人工智能和GPT项目设计的UI组件库。它提供了超过60个美观且响应迅速的页面组件,开发者无需从零开始画界面,只需简单复制粘贴代码,就能快速搭建出专业级的AI应用前端,让你可以更专注于核心功能和业务逻辑。
DeepSeek实用集成
DeepSeek实用集成是一个由官方维护的开源项目,它本质上是一个精心整理的资源导航和工具合集。它的核心作用是帮助开发者和用户像“搭积木”一样,快速、简单地将DeepSeek的强大AI能力,接入到各种日常使用的软件、开发框架和第三方服务中,让AI真正“隐身”于工作流的每一个角落。
MCP Feedback Enhanced
MCP Feedback Enhanced 是一个基于 Model Context Protocol 的反馈驱动开发工具。它的核心作用是充当AI和开发者之间的“沟通桥梁”,在AI执行关键操作前暂停并征求用户的确认、建议或选择,从而将原本多达数十次的无效工具调用,整合为一次精准的用户反馈,大幅提升开发效率并降低API使用成本。
sim
Sim Studio是一个开源的AI代理工作流构建平台,它通过直观的拖拽式界面,让开发者甚至非技术用户都能快速创建、测试和部署连接各种大语言模型(LLM)与外部工具的复杂AI应用。它支持云端一键启动和本地自托管,降低AI应用的开发门槛,提高工程效率。
AI-Infra-Guard
AI-Infra-Guard 是由腾讯开源的一款高效AI基础设施安全评估工具。它像一位专业的“安全体检医生”,能快速扫描30多种主流AI框架,精准识别近400个已知漏洞,并检测大模型的提示词安全风险和MCP服务安全问题,帮助开发者和企业在AI应用落地前发现并修复隐患。
DeepTutor
DeepTutor 是由香港大学数据智能实验室开源的一款AI学习助手。它不止于问答,更通过多智能体协作和先进的检索增强生成技术,让你上传教材后,能获得深度解析、可视化教学、定制化习题乃至自动生成的文献综述。它是一个将学习深度、个性化和隐私保护结合起来的开源解决方案。
Parlant
Parlant 是一个的开源框架,它彻底改变了传统 AI 代理依赖复杂提示词的开发方式。通过引入“确保合规性”的核心机制,Parlant 允许开发者用自然语言定义清晰的规则和行为指南,让 AI 代理在复杂、真实的业务场景中,始终保持可预测、一致且值得信赖的表现,是构建面向客户的生产级 AI 应用的理想选择。
蛐蛐 (QuQu)
蛐蛐(QuQu)是一款免费且开源的桌面端语音输入工具,为中文用户设计,是付费软件 Wispr Flow 的强大替代品。它通过本地处理保护你的隐私,结合顶尖的中文语音识别和可配置的大语言模型,帮你把口述内容自动转写、润色并粘贴到任何地方,让写作、 coding 和记录效率倍增。
MindSearch
MindSearch 是由上海人工智能实验室(上海AI实验室)研发的开源AI搜索引擎框架,它通过模拟人类思维方式,能在短短3分钟内从300多个网页中搜集整理有效信息,完成人类需要3小时的工作量。这款工具采用独特的“规划员+搜索员”多智能体架构,将复杂问题自动拆解、并行搜索、整合答案,并提供完整的思考路径供用户追溯。无论是做市场调研、写学术综述还是查法律条文,MindSearch都能成为你得力的研究助手。
AniPortrait
AniPortrait 是由腾讯游戏智迹团队开源的一款 AI 工具,它能通过一张静态人像照片和一段音频,生成口型精准、表情自然的动态视频。这项技术让老照片“开口说话”,让虚拟偶像“开口唱歌”,为内容创作者提供了零门槛的数字人生成方案。项目采用两阶段生成架构,先分析音频转化为面部关键点,再利用扩散模型生成高质量视频,目前已在 GitHub 收获超高热度。
Vercel AI SDK
Vercel AI SDK 是一个开源的 TypeScript 工具包,简化和加速 AI 驱动的 Web 应用开发。它通过统一的 API 接口,让开发者可以轻松切换不同的 AI 模型提供商(如 OpenAI、Google、Anthropic),并提供了处理流式响应、管理前端状态的内置钩子和组件。无论你是要构建聊天机器人、生成式 UI 还是复杂的 AI 智能体,这个 SDK 都能提供从后端到前端的全面支持,让你用更少的代码做更多的事。
Video-Analyzer
Video-Analyzer是一款能自动分析视频内容的开源工具。它不需要上传文件到云端,在你自己电脑上就能完成视频关键帧提取、语音转文字、内容描述生成等一系列操作。无论是想快速了解一个长视频在讲什么,还是需要批量处理监控录像、课程录像,它都能帮上大忙。
awesome-llm-apps
Awesome LLM Apps 是一个在GitHub上拥有超高热度的开源项目,由谷歌云AI产品经理创建。它像一个“AI应用百科全书”,收录了100多个基于大型语言模型(LLM)的真实应用案例。无论你想开发一个能分析PDF的智能助手、一个自动规划行程的旅行代理,还是一个多智能体协作的金融分析团队,都能在这里找到可以直接运行和学习的代码。项目核心聚焦于RAG(检索增强生成) 和AI Agent(人工智能代理) 技术,支持OpenAI、Gemini以及Llama、DeepSeek等开源模型的灵活切换,目标是帮
Windows‑Use
Windows-Use是一款能让大语言模型直接操控你Windows电脑的开源工具。它像一个虚拟的“系统管理员”,可以听懂你的自然语言指令,然后自动帮你打开软件、点击按钮、输入文字、运行命令,甚至完成批量文件处理等复杂任务,让你彻底从繁琐的重复性操作中解放出来。
awesome-cursorrules
Awesome CursorRules 是一个为 Cursor AI 编辑器收集了海量 .cursorrules 规则文件的开源宝库。它就像 AI 编码助手的“说明书”,通过预设的项目规范,让 AI 生成的代码自动符合团队风格、框架实践,告别手动修改,让开发效率和代码一致性翻倍。
SQLBot
SQLBot是一款基于大语言模型和RAG技术的开源智能问数系统,它能让你用日常说话的方式向数据库提问,并直接得到答案和可视化图表。无需写复杂SQL,业务人员也能轻松完成数据查询、分析和报表生成,真正实现“人人可用”的数据洞察。
InfiniteTalk
InfiniteTalk是一款的开源数字人框架,通过创新的稀疏帧视频配音技术,能将一张静态照片和一段音频转化为口型精准、表情丰富、动作自然的无限时长说话视频。它打破了传统数字人只能短时间“对口型”的限制,真正实现了从“面部动起来”到“全身演起来”的质变。