精选工具

您现在位置> 首页 > AI工具箱 > AI开源框架
小智AI聊天机器人
小智AI聊天机器人是一个充满趣味性的开源硬件项目,由开发者“虾哥”发起。它的目标是让普通人也能用较低的成本,亲手制作一个能与你进行流利语音对话的实体AI设备。这个小机器人支持Wi-Fi和4G连接,不仅能听懂普通话,还能识别粤语、英语、日语等多种语言,具备离线语音唤醒、声纹识别、短期记忆等功能,甚至可以连接到你的智能家居系统,成为一个会说话的智能家居控制中心。
Edge-TTS
Edge-TTS 是一个强大的开源工具,它能让你免费调用微软Edge浏览器背后的在线文本转语音服务。无需复杂的API密钥,无需Windows系统,只需几行命令或Python代码,你就可以将文字转换成自然流畅的语音,并导出为MP3文件或同步生成字幕,适用于内容创作、智能助手、辅助学习等多种场景。
DeepFlow
DeepFlow是一款由云杉网络开源的面向云原生和AI应用的全栈可观测性平台。它基于eBPF技术实现零侵扰数据采集,无需修改业务代码即可自动获取指标、日志、追踪和性能剖析信息。通过全栈关联和高性能存储,DeepFlow能够帮助运维和开发人员在复杂的容器化、微服务及AI分布式训练环境中,快速定位故障根因,保障业务连续性。
EmotiVoice易魔声
EmotiVoice易魔声是一款由网易有道推出的开源、免费的文本转语音引擎。它的亮点是支持中英文双语,内置超过2000种音色,并具备强大的情感合成能力。用户只需简单操作,就能让生成的语音带有快乐、悲伤、愤怒等多种情绪,极大地提升了语音的自然度和表现力,适用于有声书、虚拟主播、教育软件等多种场景。
Stagehand
Stagehand是一个创新的AI驱动浏览器自动化框架,它巧妙地将传统代码的精确性与自然语言的灵活性结合在一起。基于Playwright构建,它允许开发者用自然语言指令让AI理解和操作网页,同时也能在必要时编写精确代码进行微调,为网页测试、数据抓取和复杂流程自动化提供了一个高效、可靠的解决方案。
RAGFlow
RAGFlow是一个结合了大型语言模型与深度文档理解技术的开源检索增强生成引擎。它的核心目标是为企业级应用提供极准确、有据可查的问答服务。通过智能解析PDF、Word、PPT、表格等复杂格式文档中的布局和语义,RAGFlow能有效减少AI的“幻觉”问题,确保每一个回答都清晰引用自原始文档,让数据推理过程更可靠、结果更可信。
InfiniteTalk
InfiniteTalk是一款的开源数字人框架,通过创新的稀疏帧视频配音技术,能将一张静态照片和一段音频转化为口型精准、表情丰富、动作自然的无限时长说话视频。它打破了传统数字人只能短时间“对口型”的限制,真正实现了从“面部动起来”到“全身演起来”的质变。
TradingAgents
TradingAgents是一个基于大语言模型的多智能体金融交易框架,它通过模拟真实交易机构的团队协作模式,将基本面分析师、情绪分析师、技术分析师、交易员和风险管理师等角色集于一身。多个AI智能体分工协作,通过结构化报告和自然语言辩论,整合多维度数据形成交易决策。在苹果、谷歌等股票的测试中,这个开源框架在收益率和风险控制上都比传统策略表现更好,为量化交易研究提供了一个全新的实验平台。
UI-TARS
UI-TARS是字节跳动开源的纯视觉驱动多模态智能体模型,它能像人眼一样观察屏幕,通过自然语言指令自动完成鼠标点击、键盘输入、拖拽滚动等操作,支持桌面应用、手机控制和游戏交互等多种场景,让AI真正“动手”帮你干活。
CozeWorkflows
风哥AI工作流库是一个开源免费的Coze平台工作流,由AI博主风哥开发维护,目前已收录超过200个可直接导入使用的JSON工作流文件。覆盖视频生成、文档处理、表格提取、数字人、音乐创作等全场景AI任务,让用户无需编程基础也能零代码搭建复杂的AI自动化流程。无论你是自媒体创作者、运营人员还是普通学习者,都能在这里找到现成的效率工具。

AI开源框架

WeKnora
WeKnora是腾讯开源的一个文档理解与语义检索框架,它的核心使命是“将文档变成可对话的知识库”。通过集成多模态文档解析、向量检索和大语言模型技术,WeKnora能够处理PDF、Word、图片等多种格式,让用户通过自然语言对话的方式,直接提问并精准获取文档中的信息,极大地提升了企业知识管理、科研分析等场景下的信息利用效率。
Youtu-Agent
Youtu-Agent是腾讯优图实验室推出的一个开源智能体框架,帮助开发者和研究者轻松构建、运行和优化AI智能体。它的特点是“零闭源依赖”和“极简配置”,让你无需训练模型或依赖昂贵的闭源API,通过简单的YAML文件或自然语言对话,就能搭建出具备数据分析、文件处理、深度研究等能力的智能体应用。
OpenRouter
OpenRouter是一个专注于大型语言模型的统一接口访问平台。它为开发者和用户提供了一个简单高效的解决方案,通过单一的API接口,即可调用包括GPT-4、Claude、Google PaLM、Llama 3等在内的数十种主流AI模型,极大地简化了多模型集成与管理的复杂度。
Anthropic Cookbook
Anthropic Cookbook是Anthropic官方推出的开源项目,一个面向Claude大模型开发者的“菜谱”式代码示例和实践。它通过丰富的Python代码片段和Jupyter Notebook,帮助开发者快速掌握分类、RAG检索增强生成、多模态、工具调用等核心技能,降低AI应用开发门槛,加速从原型到生产的落地过程。
OpenWebUI
OpenWebUI是一个功能强大的开源AI交互界面,它就像AI界的“万能遥控器”。无论你是在本地运行Ollama模型,还是使用OpenAI、Google等云端的API,都可以通过它统一管理和对话。它不仅提供了媲美ChatGPT的流畅体验,还内置了知识库(RAG)、多模型对比、团队权限管理等高级功能,最关键的是,你可以把它部署在自己的服务器上,确保数据100%私有化。
Kotaemon
Kotaemon是一个开源的、基于检索增强生成技术的文档智能问答工具,它为终端用户和开发者提供了一个简洁且可定制的用户界面。你可以通过对话的方式,与PDF、Word等多种格式的文档进行交互。它支持本地模型和主流API,并具备多模态问答、引用追踪和复杂推理能力,是搭建私有知识库和RAG应用的理想起点。
Midscene.js
Midscene.js是一款开源的、由AI驱动的UI自动化SDK。它地改变了传统的UI测试方式,允许开发者和测试人员直接用自然语言来描述操作步骤和断言,比如“点击登录按钮并验证跳转”。它结合多模态大语言模型理解界面,并提供了强大的可视化工具,让UI自动化测试变得前所未有的高效、直观和易于维护。
IOPaint
IOPaint是一款功能强大的开源AI图像处理工具,由Sanster团队开发维护。它集成了LaMa、PowerPaint、Stable Diffusion等前沿模型,支持图像擦除、对象替换、图片扩展、去水印、去划痕、老照片修复等多种功能。用户可以在本地电脑或私有服务器上免费部署,通过简洁的网页界面操作,所有处理都在自己的设备上完成,不用担心数据泄露。无论是专业设计师还是普通用户,都能用它轻松搞定各种图片编辑难题。
deep-research
Deep-Research是由个人开发者打造的一款开源AI研究助手。它通过精巧的代码设计,将搜索引擎、网页内容抓取和大语言模型结合起来,形成一个能够自动迭代、深入探索任何主题的智能代理。你只需给出一个研究目标,它就能像人类研究员一样,不断思考下一步该搜索什么,阅读找到的资料,并最终生成一份结构清晰、附带来源的深度研究报告。
CozeWorkflows
风哥AI工作流库是一个开源免费的Coze平台工作流,由AI博主风哥开发维护,目前已收录超过200个可直接导入使用的JSON工作流文件。覆盖视频生成、文档处理、表格提取、数字人、音乐创作等全场景AI任务,让用户无需编程基础也能零代码搭建复杂的AI自动化流程。无论你是自媒体创作者、运营人员还是普通学习者,都能在这里找到现成的效率工具。
LangGraph
LangGraph是一个低层级的开源编排框架,为构建、管理和部署长期运行、具有状态的AI智能体而设计。它提供持久化执行、人机协作、全面记忆和可视化调试等核心能力,解决了传统无状态架构在处理复杂AI工作流时的局限性。从Klarna、Uber到LinkedIn,领先企业正使用LangGraph将AI应用从简单的对话交互升级为能够思考、记忆并采取行动的智能系统。
Stagehand
Stagehand是一个创新的AI驱动浏览器自动化框架,它巧妙地将传统代码的精确性与自然语言的灵活性结合在一起。基于Playwright构建,它允许开发者用自然语言指令让AI理解和操作网页,同时也能在必要时编写精确代码进行微调,为网页测试、数据抓取和复杂流程自动化提供了一个高效、可靠的解决方案。
Letta
Letta是一个专注于解决AI“金鱼记忆”问题的开源框架,它让大语言模型驱动的智能体拥有持久化、结构化的长期记忆。通过独特的虚拟上下文管理技术,AI可以在多轮对话甚至跨会话中记住用户偏好、历史交互和关键信息,适用于客服助手、研究助理、销售运营等需要长期积累知识的场景。
Perplexica
Perplexica是一款开源的AI驱动搜索引擎,灵感源自Perplexity AI。它不仅仅是找到网页链接,而是真正尝试“理解”你的问题,通过先进的机器学习算法深入互联网寻找答案,并将搜索结果整合成一份带有清晰来源引用的综合回答。它注重信息的实时性和用户隐私,支持连接本地大语言模型,是一个功能强大且自由开放的搜索工具。
UI-TARS
UI-TARS是字节跳动开源的纯视觉驱动多模态智能体模型,它能像人眼一样观察屏幕,通过自然语言指令自动完成鼠标点击、键盘输入、拖拽滚动等操作,支持桌面应用、手机控制和游戏交互等多种场景,让AI真正“动手”帮你干活。
lmsysorg
LMSYS Org是一个由顶尖高校组成的开放研究团体,致力于让大型语言模型惠及每一个人。它最为人所知的是创建了Chatbot Arena这一大模型“竞技场”评测平台,通过用户匿名投票的方式,为的AI模型性能提供了一个公开、公正的排名。它还开发了Vicuna聊天机器人、FastChat训练框架等一系列有影响力的开源项目,是大模型研究与评测领域的重要力量。
mcp.so
MCP.so是一个收录了超过17000个MCP服务器的第三方市场平台,为AI开发者和爱好者提供集中发现、管理和学习MCP服务器的社区驱动型工具。平台支持在线调试、SSE远程连接和STDIO本地配置,让AI助手能够安全访问外部数据源和工具,极大扩展AI应用能力边界。
OWL
OWL是由CAMEL-AI团队打造的一款开源多智能体协作框架,将现实世界中的复杂任务自动化。它就像一支由AI智能体组成的“特工队”,成员之间可以动态沟通、分工合作,共同完成从信息检索、文档分析到代码编写、浏览器操作等一系列任务,为个人和企业提供高效、灵活且隐私优先的自动化解决方案。
Shimmy
Shimmy 是一个开源的本地 AI 服务工具,它通过提供与 OpenAI 兼容的 API 接口,让你能在自己的电脑上轻松运行和管理多种 AI 模型。它的核心使命是保护数据隐私,确保你的所有操作和数据都保留在本地,永不外泄。同时,它支持多种硬件加速后端,力求在本地环境中提供高效、流畅的 AI 推理体验。
PocketFlow
PocketFlow 是一个极简主义的开源 LLM(大型语言模型)框架,核心代码仅约100行。它通过“节点”和“流”的图结构抽象,让开发者能够以极低的门槛和零外部依赖,快速构建从简单的聊天机器人到复杂的多智能体协作、RAG(检索增强生成)工作流等各类AI应用。它为“人-AI协同设计”而生,让开发者甚至AI助手都能轻松理解并构建维护复杂的AI系统 。
EmotiVoice易魔声
EmotiVoice易魔声是一款由网易有道推出的开源、免费的文本转语音引擎。它的亮点是支持中英文双语,内置超过2000种音色,并具备强大的情感合成能力。用户只需简单操作,就能让生成的语音带有快乐、悲伤、愤怒等多种情绪,极大地提升了语音的自然度和表现力,适用于有声书、虚拟主播、教育软件等多种场景。
Fish Speech
Fish Speech 是一个功能强大的开源文本转语音工具,由Fish Audio开发。它能将文字转换成高度逼真的语音,并支持出色的语音克隆功能。依托约15万小时的多语言数据训练,它能够用中文、英语、日语等多种语言“说话”,而且模型设计轻量,你甚至可以在自己的电脑上运行和微调它,打造专属的语音助手。
Edge-TTS
Edge-TTS 是一个强大的开源工具,它能让你免费调用微软Edge浏览器背后的在线文本转语音服务。无需复杂的API密钥,无需Windows系统,只需几行命令或Python代码,你就可以将文字转换成自然流畅的语音,并导出为MP3文件或同步生成字幕,适用于内容创作、智能助手、辅助学习等多种场景。
PandasAI
PandasAI是一款的开源Python库,它将Pandas等数据分析工具与大型语言模型相结合,让用户无需编写复杂代码,只需通过自然语言对话的方式,就能完成数据查询、清洗、可视化和建模等复杂任务。它极大地降低了数据分析的门槛,让不懂SQL或Python的业务人员也能轻松从数据中获取 insights。
AgenticSeek
AgenticSeek是一款的、在本地运行的AI助手。它无需依赖云端,能像真人一样自主浏览网页、编写调试代码、规划复杂任务,并支持语音交互。所有数据仅保存在你自己的电脑上,彻底解决了隐私泄露的担忧,为追求数据和智能化效率的用户提供了的Manus AI本地替代方案。
Unstract
Unstract是一个开源的、无代码的大型语言模型平台,帮助用户轻松启动API和ETL管道,将复杂的非结构化文档转化为结构化数据。它利用LLM的强大能力,超越了传统的RPA和IDP系统,让机器到机器的文档自动化处理变得简单高效。
OmniHuman
OmniHuman是字节跳动推出的端到端多模态AI数字人生成框架。它地将数字人从“上半身说话”推进到“全身高保真演绎”阶段。你只需提供一张静态人物照片和一段音频,它就能自动生成一段人物说话、唱歌甚至演奏乐器的逼真全身视频,实现音频、口型、表情和肢体动作的高度同步。
Gemini CLI
Gemini CLI是谷歌推出的一款开源AI命令行工具,它将Gemini模型的强大能力直接集成到开发者的终端环境里。你可以像跟同事聊天一样,在命令行里让它帮你写代码、解释报错、分析图片、甚至处理文件,无需离开终端界面,就能获得一个随时待命的AI编程搭档。
IDM-VTON
IDM-VTON是由韩国科学技术院(KAIST)与OMNI.AI联合开发的一款高保真AI虚拟试穿技术。它通过改进扩散模型,能够将服装图片自然地“穿”在人物照片上,即使在复杂背景和多样化姿势下,也能精准还原服装的纹理、图案和褶皱,为时尚电商、个性化推荐和元宇宙等领域提供近乎真实的虚拟试衣解决方案。
DeepFlow
DeepFlow是一款由云杉网络开源的面向云原生和AI应用的全栈可观测性平台。它基于eBPF技术实现零侵扰数据采集,无需修改业务代码即可自动获取指标、日志、追踪和性能剖析信息。通过全栈关联和高性能存储,DeepFlow能够帮助运维和开发人员在复杂的容器化、微服务及AI分布式训练环境中,快速定位故障根因,保障业务连续性。
DreamTalk
DreamTalk是由清华大学、阿里巴巴集团和华中科技大学联合开发的AI肖像动画技术,它能将一张静态的人物照片转化为可以说话的动态虚拟形象。通过先进的扩散模型,这个框架不仅能让人物的嘴唇与输入音频精确同步,还能生成丰富的面部表情,让达芬奇、蒙娜丽莎这样的经典肖像“活”过来,带着愤怒、快乐等不同情绪开口说话。它支持多种语言,适用于影视制作、人机交互、跨文化对话等场景,为数字内容创作提供了全新的性。
TradingAgents
TradingAgents是一个基于大语言模型的多智能体金融交易框架,它通过模拟真实交易机构的团队协作模式,将基本面分析师、情绪分析师、技术分析师、交易员和风险管理师等角色集于一身。多个AI智能体分工协作,通过结构化报告和自然语言辩论,整合多维度数据形成交易决策。在苹果、谷歌等股票的测试中,这个开源框架在收益率和风险控制上都比传统策略表现更好,为量化交易研究提供了一个全新的实验平台。
FireRedTTS
FireRedTTS是由小红书技术团队开发的AI语音合成系统,的亮点是无需训练,只需提供几秒钟的参考音频和文本,就能克隆出目标音色并生成高质量的语音内容。无论是萝莉音、御姐音还是磁性大叔音,它都能轻松模仿,还能生成搞笑、温柔、霸气等多种风格的语音。这个开源项目支持本地部署,适用于短视频配音、聊天机器人、在线教育等多种场景,让每个人都有了自己的“AI声优”。
Fa lle
Fa lle是一个开源的AI驱动搜索引擎项目,让你能够利用本地或云端的大语言模型进行智能搜索和问答。基于Perplexity项目开发,Fa lle支持自托管部署,用户可以在保护数据隐私的前提下,使用llama3、gemma、mistral等本地模型,或接入OpenAI/GPT4、Groq/Llama3等云模型,实现专家搜索、聊天历史管理和本地文件对话等功能。无论是个人开发者还是企业用户,都能通过Docker快速搭建属于自己的AI搜索工具。
LangGPT
还在为写不好AI提示词而烦恼吗?LangGPT 是一个开源的提示词设计与优化框架,它通过结构化、模板化的方法,将提示词编写变成了一项系统性的工作。你不再需要凭感觉“”AI,而是像写代码一样,用模块、变量和规则来构建稳定、高效、可复用的提示词,让大语言模型的输出质量实现质的飞跃。
Xinference
还在为部署和调用各种AI模型发愁吗?Xinference 是一个开源框架,它像一位“万能管家”,帮你把大语言模型、多模态模型、语音识别模型等统统管理起来。你只需一个命令,就能在本地或服务器上启动模型,并通过统一的API调用它们,彻底告别环境配置和依赖冲突的烦恼。
browser-use
你是否想过,只需动动嘴,你的浏览器就能自己完成填表、比价、甚至订机票这些繁琐操作?Browser Use 正是这样一款开源的Python库,它像一座桥梁,连接了强大的大语言模型和你的浏览器,让AI能够像人一样“看懂”网页、点击按钮、输入文字,从而自动化执行各种复杂的网络任务。
Ant Design X Vue
Ant Design X Vue 是一款为 Vue 3 开发者设计的 AI 界面组件库,通过提供开箱即用的对话式 UI 组件,帮助开发者和设计团队快速构建智能客服、AI 助手等应用。它基于 Ant Design Vue 扩展,包含了消息气泡、智能建议、思维链展示等核心功能,让 AI 交互界面的开发更高效、体验更卓越。
PPTist
PPTist是一款在浏览器中直接运行的演示文稿工具,它程度还原了微软PowerPoint的常用功能。你可以轻松创建包含文字、图片、图表、音视频的专业幻灯片,支持导出PPTX、PDF等多种格式。无论是商务汇报、教学课件还是产品展示,无需安装任何软件,打开网页就能获得媲美桌面软件的编辑体验。
500-AI-Agents-Projects
还在为AI智能体应用找不到灵感而发愁吗?500-AI-Agents-Projects 是一个在GitHub上爆火的开源项目,它像一座桥梁,连接了AI应用的想法和实践。该项目精心整理了横跨医疗、金融、教育等15+行业的500多个AI智能体应用案例,并为每个案例提供了直接可用的开源代码链接。无论你是想快速上手AI开发,还是寻找可落地的商业解决方案,这个项目都能帮你打破信息差,直接“站在巨人的肩膀上”进行创新。
coze-studio
Coze Studio是字节跳动开源的一站式AI应用开发平台,让不懂代码的人也能通过拖拽界面创建AI智能体。它集成了工作流编排、知识库管理、插件扩展等核心能力,支持从原型设计到私有化部署的全流程,真正实现了“想法到应用”的零代码落地。
DroidRun
DroidRun是一个开源的AI自动化框架,它让大语言模型成为你的“手机管家”。你只需要用自然语言下达指令,比如“把昨晚拍的照片发朋友圈”,DroidRun就能理解你的意图,自动完成在Android设备上的所有操作。它结合了视觉识别和UI结构解析,目标是让手机操作像说话一样简单。
Diffutoon
Diffutoon是阿里巴巴达摩院与华东师范大学联合推出的AI视频转绘工具,能将普通真人视频一键转换成高质量动漫风格。它解决了传统视频风格化中常见的画面闪烁、内容失真、分辨率低三大痛点,支持高达1536x1536的高清输出,还能根据文字提示编辑视频内容,让每个创作者都能轻松做出“二次元”风格作品。
mem0
Mem0是一个为AI助手和智能体打造的“记忆层”,它让AI能够真正记住你是谁、喜欢什么、讨厌什么。通过三行代码,开发者就能让原本每次对话都“失忆”的大模型,变成能记住用户偏好、适应个人习惯、并且越用越懂你的智能系统。
LeRobot
LeRobot是Hugging Face推出的开源机器人开发平台,通过提供预训练模型、标准化数据集和硬件统一接口,将机器人开发的门槛从专业实验室降低到个人极客的桌面。无论你是想用几百美元组装一只机械臂,还是在虚拟环境里训练下一代具身智能模型,LeRobot都能让你轻松上手。
Haystack
Haystack是一个端到端的开源框架,专门用于构建基于大型语言模型的智能应用。它通过“管道”机制把嵌入模型、检索器、大语言模型等组件像搭积木一样组合起来,让你能快速搭建检索增强生成、文档问答、语义搜索等复杂系统。无论你想用OpenAI还是本地模型,Haystack都能灵活适配。
PaddleSpeech
PaddleSpeech是百度飞桨推出的开源语音处理工具包,它把复杂的语音识别、语音合成、音频分类等功能封装成一行命令就能调用的服务。无论你想把会议录音转成文字,还是让文字变成自然流畅的语音,甚至分析音频里的情绪和场景,PaddleSpeech都能帮你快速实现,而且支持中文等多种语言。
OpenTiny
OpenTiny是由华为云孵化的开源前端解决方案,它提供了一套完整的企业级组件库和工具链。无论你用Vue还是Angular,开发PC端还是移动端,OpenTiny都能帮你快速搭建专业的前端应用。它的核心特色是“跨框架、跨端、跨版本”,加上内置的低代码能力,让企业级应用开发像搭积木一样简单高效。
Helicone
Helicone是一个为AI应用打造的开源可观测性平台,它能让你用一行代码就实现对LLM请求的全面监控。从延迟分析、成本追踪到Token用量统计,再到提示词版本管理和多模型统一接入,Helicone把复杂的AI应用运维变得像看仪表盘一样简单,特别适合需要把大模型应用推向生产环境的团队。
Pixelle MCP
Pixelle MCP是一个的开源全模态AI框架,它将ComfyUI的可视化工作流与MCP协议无缝结合,让你能用自然语言直接调用复杂的图像、音频、视频生成任务。无需编写任何代码,只需拖拽节点设计工作流,就能在Cursor、Claude Desktop等AI助手中像聊天一样使用这些功能,真正实现了“工作流即工具”的零开发体验。