详情介绍
Pixelle MCP是由AIDC-AI团队开发的多模态AIGC解决方案,它的核心理念是打破大语言模型与专业生成工具之间的壁垒。传统上,你想让AI助手帮你处理图像或视频,要么需要复杂的API对接,要么得手动操作多个软件。而Pixelle MCP通过MCP协议这座桥梁,让任何支持MCP的AI客户端都能直接调用你在ComfyUI中设计的任何工作流。
这个项目的巧妙之处在于它的“零代码转化”机制。你在ComfyUI里搭建的工作流——比如一个复杂的图像修复链条,或者一个视频风格迁移流程——只需要在节点标题里用简单的语法标记输入输出参数,导出为API格式后放到指定目录,系统就会自动把它注册成一个可供AI调用的工具。整个过程就像复制粘贴文件一样简单。
Pixelle MCP支持全模态内容生成,涵盖文本、图像、音频、视频四大领域。它内置了与主流大模型的集成能力,包括OpenAI、Claude、Gemini、通义千问等10多个模型。部署方式非常灵活,你可以通过pip一键安装,也可以用Docker快速启动,甚至支持临时运行体验。版本还增加了对RunningHub云ComfyUI的支持,即使本地没有强大的GPU也能使用云端的算力资源。
官网入口地址
官网入口网址:https://pixelle.ai/
(注意:官网目前正在维护中,建议优先访问GitHub项目页)
下载地址
开源项目地址:https://github.com/AIDC-AI/Pixelle-MCP
功能介绍
全模态内容生成支持
Pixelle MCP真正实现了TISV全模态覆盖:
-
文本处理:支持提示词优化、文档摘要、多语言翻译、文本改写等
-
图像处理:支持文生图、图生图、图像修复、风格迁移、超分辨率、背景移除等
-
音频处理:支持语音识别转录、音乐源分离、声音风格转换、文本转语音等
-
视频处理:支持文生视频、图生视频、视频插帧、视频风格化、高效合成等
零代码工作流转化
这是Pixelle MCP最核心的功能。你只需要:
-
在ComfyUI中搭建好工作流
-
用特定语法标记输入参数(如
$image.image!:输入图片) -
导出为API格式的JSON文件
-
放到
data/custom_workflows/目录下
系统会自动将这个工作流注册成一个MCP工具,大语言模型立刻就能识别并使用它。从搭建到使用,全程不需要写一行代码。
多LLM协同支持
项目集成了LiteLLM框架,支持主流的大语言模型:
-
OpenAI系列(GPT-4、GPT-3.5)
-
Anthropic Claude系列
-
Google Gemini系列
-
通义千问(Qwen)
-
DeepSeek
-
Ollama本地模型
-
以及他兼容OpenAI接口的模型
灵活的双执行模式
版本提供了两种执行引擎选择:
-
本地ComfyUI模式:适合有GPU的用户,数据本地处理,隐私安全,支持自定义节点和模型
-
RunningHub云模式:无需本地GPU,注册后获取API密钥即可使用云端的ComfyUI服务,自动处理并发和资源分配
智能参数解析系统
系统会自动识别节点参数类型:
-
根据节点字段的当前值推断类型(整数、浮点数、布尔值、字符串)
-
支持必填参数(用
!标记)和可选参数 -
支持URL自动下载处理(用
~标记) -
支持多个输出结果的定义
可视化Web界面
基于Chainlit框架开发的Web界面:
-
界面清爽,操作直观
-
支持多模态交互(上传图片、音频、视频)
-
可同时接入多个MCP服务器
-
内置用户认证系统(默认账号密码dev)
多客户端兼容
作为标准的MCP服务器,它可以连接任何支持MCP协议的客户端:
-
Cursor编辑器
-
Claude Desktop应用
-
他自定义MCP客户端
通过MCP端点(http://localhost:9004/pixelle/mcp)即可接入
一键部署方案
提供多种部署方式适应不同需求:
-
pip安装:
pip install -U pixelle后直接运行pixelle命令 -
临时体验:
uvx pixelle@latest零配置启动 -
Docker部署:
docker compose up -d适合生产环境 -
源码运行:克隆仓库后用
uv run pixelle启动
应用场景
数字艺术创作
艺术家可以用自然语言指挥AI助手完成复杂的创作流程。比如输入“生成一个武侠战斗场景:剑客在竹林顶端对决”,Pixelle MCP会自动调用文生图工作流生成分镜,再通过图生视频工作流动起来,整个过程就像在和助手聊天一样自然。
电商广告自动化
某电商团队用Pixelle MCP实现了商品海报的批量生成。他们搭建了一个工作流:输入商品图片和文案,自动抠图、合成背景、添加高效、输出成品。原来每天需要设计师手工处理的百款商品海报,现在只需要在AI对话框里说一句“生成这批商品的海报”,系统就自动完成了,效率提升了20倍。
教育内容生产
教育机构可以用它快速制作教学素材。将教材文本输入,系统自动提取知识图谱,生成动画视频,再配上多语言配音。原本需要3天完成的课程素材,现在1小时就能产出。
影视预可视化
导演和分镜师在前期创作时,可以直接用剧本描述生成动态分镜。输入“黄昏时分,主角站在城堡前仰望”,系统立即生成场景画面,还能实时调整灯光角度、运镜参数,大大加快了创意迭代速度。
音频后期处理
音乐制作人可以用它批量处理音频素材。搭建一个音频工作流,输入人声干音,自动分离伴奏、添加混响、调整EQ,全程在AI聊天界面里用语音指令完成。
必要补充信息
定价模式
Pixelle MCP本身是免费的开源项目,采用MIT许可证。你可以自由使用、修改、分发,甚至用于商业项目。但需要注意,它依赖的ComfyUI和各类AI模型需要你自己准备,如果你选择使用RunningHub云模式,RunningHub平台会收取相应的云服务费用。
硬件要求
-
本地部署:推荐使用NVIDIA GPU(显存建议8GB以上),需要安装Docker和NVIDIA容器工具包
-
云模式:不需要本地GPU,只需注册RunningHub账号获取API密钥
社区支持
项目在GitHub上已有超过800个星标,社区活跃度较高。你可以通过以下渠道获取帮助:
-
GitHub Issues提交问题
-
项目文档中的社区群二维码(支持Discord和微信)
-
各类技术博客的体验分享
实际应用示例
一个完整的AI漫画创作流程示例:
-
文本生成分镜:输入“生成武侠战斗场景:剑客在竹林顶端对决”
-
图像生成:调用Stable Diffusion XL工作流生成关键帧
-
视频合成:用AnimateDiff节点将图像序列生成动画
-
配音添加:调用XTTS语音合成工作流生成对白
整个过程只需要在Web界面上和AI对话就能完成。
Pixelle MCP常见问题
Pixelle MCP是由AIDC-AI团队开发并开源的多模态AI框架。AIDC-AI是一个专注于人工智能领域的研究团队,他们致力于降低AI应用开发门槛,让更多人能轻松使用先进的AI技术。这个项目目前在GitHub上开源,采用MIT许可证,社区贡献非常活跃。
Pixelle MCP的官网地址是https://pixelle.ai/不过需要提醒你,官网目前处于维护状态,有时候会无法访问。如果你想马上体验这个工具,最可靠的方式是直接访问它的GitHub项目页https://github.com/AIDC-AI/Pixelle-MCP那里有完整的安装说明和使用教程。项目提供了多种部署方式,你可以用pip一键安装,也可以用Docker快速启动。
你可以把Pixelle MCP理解成一个“翻译官”加“搬运工”。它让你能用日常说话的方式,指挥那些专业的AI图像、视频生成工具。比如你平时用ComfyUI做图需要手动连接一堆节点,但现在你只需要在Cursor或者Claude Desktop里像聊天一样说“帮我模糊这张图片”,Pixelle MCP就会自动去调用你事先设计好的模糊处理工作流,然后把结果返回给你。整个过程不需要写代码,也不需要切换软件,特别适合那些懂创作但不太会编程的人。
实特别简单,三步就能搞定。第一步,你在ComfyUI里把想要的功能用节点搭建好,比如一个图像放大的工作流。第二步,在需要输入的地方给节点起个特别的名字,比如在“加载图像”节点上写上$image.image!,意思是告诉系统“这里需要用户提供一张图片”。然后把这个工作流导出成一个JSON文件。第三步,把这个文件放到Pixelle MCP的指定文件夹里,系统就会自动把它变成一个工具。之后你在聊天界面里上传一张图片说“放大这张图”,AI就会自动调用这个工具来处理。整个过程真的不需要写一行代码。
放心,Pixelle MCP是百分之百免费的开源项目,采用MIT许可证。这意味着你可以免费、修改,甚至用它做商业项目都没问题。不过要留意一点,它本身是免费的,但它依赖的ComfyUI以及你调用的大语言模型API(比如OpenAI或Claude的接口)需要你自己付费。如果你选择使用它新出的RunningHub云模式,RunningHub平台会收取云服务的费用,但这笔钱是给云平台的,不是给Pixelle MCP的。
这个问题问得很好。Pixelle MCP本身不会偷偷上传你的数据,因为它是一个开源项目,代码都是公开的,你可以自己检查它做了什么。它支持本地部署模式,你可以选择在自己的电脑上运行ComfyUI和Pixelle MCP,所有数据处理都在本地完成,不需要联网,这样你的图片、视频、文档都不会离开你的电脑。如果你选择调用云端的LLM服务,那数据会发送给对应的模型提供商,这点需要注意。最近他们还增加了RunningHub云模式,如果你用这个模式,数据就会上传到RunningHub的服务器。
我分享几个实测好用的技巧。第一,善用参数描述,在节点标题里加上中文说明,比如$image.image!:上传你要处理的高清图片,这样AI助手调用时会更准确。第二,复杂工作流可以拆分成多个小工具,比如把“图像放大”和“图像锐化”分开,需要的时候组合使用,灵活性更高。第三,学会用~符号,比如$audio.~audio!可以让系统自动处理URL下载,省去手动上传的步骤。第四,对于经常用的工作流,可以在ComfyUI里提前设置好常用参数的默认值,这样调用时就不用每次都输入。
它最厉害的地方是把ComfyUI这个强大的图像视频工具变成了AI助手的“外挂”。具体来说有几个特色:第一是真正的零代码转化,你在ComfyUI里画个流程图就能变成AI能用的工具,这个设计特别巧妙。第二是全模态支持,不光是图片,音频、视频都能处理,我一个朋友用它做了个工作流,输入一段语音,自动转换成不同角色的声音,特别好用。第三是双执行模式,本地没显卡也能用云端的算力。第四是参数自动解析,系统能根据你在节点里填的示例值自动判断参数是整数还是小数,非常智能。
如果公司内部使用,我建议你选择本地部署模式。Pixelle MCP支持离线的部署方案,你可以把它和ComfyUI都装在内网的服务器上,所有数据都在公司内部流转,不会经过任何第三方服务器。而且因为它是开源的,安全团队可以做代码审计,确保没有后门。如果你需要调用大模型,还可以用Ollama这类本地模型,真正做到数据不出门。最近更新的RunningHub模式虽然方便,但数据会经过云端,对数据安全要求高的场景就不太适合了。
我用了一个下午体验,实话实说,确实好用。的优势是“省事”。以前我用ComfyUI做视频风格迁移,得打开软件,加载工作流,选图片,调参数,等渲染,一套流程下来怎么也得十分钟。现在用Pixelle MCP,我在Cursor里直接说“把这段视频转成水墨风格”,AI自动调用工作流处理,一分钟搞定。特别是处理批量任务的时候,优势更明显,你只要告诉AI“把文件夹里所有图片都加上这个滤镜”,它就自动处理完了。对于不熟悉编程的设计师来说,这个工具真的能解放生产力。
目前Pixelle MCP本身没有直接生成PPT的功能,但你可以通过组合多个工具来实现。比如你可以先用文生图工作流生成PPT需要的配图,再用文本处理工作流提炼大纲,把这些素材手动整合到PPT软件里。不过,如果你在ComfyUI里搭建一个“图片转PDF”或者“多图合成”的工作流,倒是可以快速生成演示文稿需要的素材。随着社区发展,说不定很快会有人贡献直接生成PPT的工作流。
生成视频一点都不复杂,前提是你得先在ComfyUI里有一个能生成视频的工作流。比如你想用AnimateDiff做动画,就在ComfyUI里把AnimateDiff相关的节点连接好,设置好输入参数(比如提示词、帧数、尺寸),然后在节点标题里用语法标记这些参数,比如$prompt.text!:描述动画内容。导出工作流放到Pixelle里,之后你在聊天界面输入“生成一个蝴蝶飞舞的10秒视频”,系统就会自动调用这个工作流处理,返回给你生成好的视频文件。整个过程你只需要动嘴说话,不需要手动操作任何视频软件。
Pixelle MCP本身没有固定的对话长度限制,它主要受限于你连接的LLM模型和ComfyUI的处理能力。比如你用的Claude或GPT有几万字的上下文窗口,那么你在对话里就可以上传很长的文档或者很多张图片。但要注意,如果你一次提交的任务太复杂,比如同时处理几十个视频,会受限于你的硬件配置(内存、显存)或者云服务的并发限制。建议根据实际情况分批处理,或者设计工作流时加入批量处理的能力。
| 分享笔记 (共有 篇笔记) |