详情介绍
MiniMax成立于2021年12月,是一家致力于“与用户共创智能”的通用人工智能科技公司。公司自主研发了多模态、万亿参数的MoE大模型,并基于这些模型推出了海螺AI、星野等面向个人用户的AI原生应用。而MiniMax开放平台则是面向企业和开发者的专业服务平台,将MiniMax强大的模型能力通过API的形式输出,降低AI应用的开发门槛。
截至2025年9月,MiniMax已为来自超过200个国家及地区的逾2亿名个人用户,以及来自超过100个国家及地区的超过10万家企业及开发者提供服务。平台的AI原生产品平均月活跃用户数达到2760万。
平台的核心优势在于全链路自研的技术体系:从万卡级别的跨云高效计算系统,到单日过亿次级的调用处理能力,再到周级快速迭代的模型更新节奏。无论是初创团队还是大型企业,都能在MiniMax开放平台上找到适合自身业务场景的AI解决方案。
官网入口地址
MiniMax官网入口是:https://www.minimaxi.com/
开放平台控制台及相关文档可通过官网导航进入。
下载地址
MiniMax开放平台本身是在线服务平台,无需下载。开发者需要获取的是:
-
API密钥:在官网注册并登录后,在控制台创建项目获取Access Key和Secret Key。
-
SDK与代码示例:平台提供了Python、JavaScript等多种语言的SDK和参考代码,可在官方文档中找到。
-
模型权重:部分模型(如M2)已在Hugging Face平台开源,开发者可下载进行本地部署研究。
功能介绍
MiniMax开放平台提供了覆盖多模态的丰富API接口,满足不同场景的AI能力需求:
-
1. 文本大模型(Chat Completion)
提供基于自然语言交互的文本生成能力,支持多轮对话、角色设定、关键信息提取、知识问答、文本创作、逻辑推理、代码生成等。Pro版本更增加了搜索引擎调用和自定义函数调用功能,让模型能够获取实时信息或执行外部操作。-
M2.5模型:全面升级的通用大模型,在编程能力、搜索和工具调用、办公场景专业产出方面表现卓越。
-
M2-her模型:为多角色沉浸扮演设计,能驾驭超长轮次的复杂对话场景。
-
-
2. 语音大模型(T2A - Text-to-Speech)
将文字转换为自然流畅的语音,支持多种语言、音色和情感表达。-
高保真音质:提供
speech-02-hd、speech-02-turbo等多个版本,支持MP3、W、PCM等多种音频格式。 -
情感控制:可调整
happy、sad、angry等情感参数,让语音更生动。 -
声音复刻:提供声音快速复刻和精品复刻能力,用户只需上传少量音频即可生成个性化音色。
-
超低时延:为Agent场景优化的Speech 2.6版本,具备智能生动的表达能力。
-
-
3. 视频生成大模型
基于文本描述或参考图片生成高质量视频内容。-
海螺Hailuo系列:Hailuo-02系列模型能够从多种形式信息输入中生成电影级画质的视频,具备流畅的动态效果和风格多样性。
-
多种模式:支持T2V-01(文生视频)、I2V-01(图生视频)、I2V-01-Director等多种生成模式,满足创意视频、广告制作等需求。
-
主体一致性:可在视频生成过程中保持特定人物或物体的视觉特征一致性。
-
-
4. 图像生成大模型
根据文本提示生成高质量的图像。支持image-01等模型,可调整宽高比、生成数量,并内置提示词优化器(Prompt Optimizer)以提升生成效果。同时支持角色参考功能,通过上传参考图片保持人物特征。 -
5. 音乐生成大模型
MiniMax Music 2.5实现了全维度突破,支持Electronic、Pop、Jazz、R&B等多种音乐风格的生成,能够精细控制音乐的细节和真实感,适用于背景音乐制作、个性化音乐创作等场景。 -
6. Agent智能体服务
这是MiniMax面向未来AI原生组织形态推出的重磅能力。Agent不再是简单的对话机器人,而是能够深度嵌入工作流的“数字实习生”。-
Expert2.0(专家功能):用户可以通过自然语言描述任务目标(如“做一个DCF估值模型”),系统自动完成工具编排和SOP封装,无需编写复杂代码。目前已沉淀超过1.6万个专家Agent,覆盖技术开发、商业金融等领域。
-
MaxClaw云端助手:集成于Agent网页端,提供50G专属云存储空间及预置专家级Skill,打通飞书、钉钉、Telegram等主流IM渠道,支持跨端异步协作。
-
内部实践:在MiniMax公司内部,Agent实习生已帮助运维工程师完成约80%的查Bug工作量,帮助销售团队实现客户触达和文案润色的自动化。
-
-
7. Embeddings接口
将文本转化为高维向量,用于实现长记忆检索、知识库检索、语义相似度计算等功能,是构建RAG(检索增强生成)应用的基础组件。 -
8. MCP协议支持
MiniMax提供了官方MCP(Model Context Protocol)服务,支持通过标准协议与Claude Desktop、Cursor等MCP客户端无缝集成,让开发者可以方便地调用TTS、图像生成、视频生成等能力。
应用场景
MiniMax开放平台的多模态能力使可以广泛应用于以下领域:
-
效率办公:利用文本大模型辅助撰写报告、总结会议纪要;利用Agent自动处理邮件、管理日程、监控系统告警。
-
互动娱乐:在社交、游戏、语聊场景中,使用M2-her模型打造沉浸式的角色扮演体验;使用语音大模型为虚拟数字人赋予个性化声音。
-
内容创作:视频创作者使用海螺AI生成创意视频素材;音乐人使用Music模型辅助创作;营销人员使用图像模型快速生成海报和广告图。
-
客户服务:搭建智能客服系统,结合RAG技术精准回答用户问题;使用语音合成生成自动语音应答。
-
教育培训:生成教学课件、批改作业、模拟对话练习外语;将有声书制作成本大幅降低。
-
开发辅助:Coding Plan为开发者提供高性价比的编程套餐,支持代码生成、调试、技术方案咨询等,可一键接入主流开发工具。
必要信息补充
-
定价与免费额度:
-
Coding Plan:为开发者设计了专门的编程套餐,分为Starter(¥29/月)、Plus(¥49/月)、Max(¥119/月)三档,每5小时分别提供40/100/300次prompt调用。
-
限时免费:新模型发布时常有限时免费体验活动,M2模型曾限时免费开放使用。
-
按量付费:除套餐外,各类API也支持按实际调用量计费。M2模型的API定价为每百万token输入0.3美元、输出1.2美元,仅为Claude Sonnet价格的8%。
-
免费额度:新用户注册可获得一定量的免费体验额度,具体以官网活动为准。
-
-
交付形态:
-
公有云API:通过标准API接口直接调用,即开即用。
-
独占云端算力:为有大流量或数据隔离需求的客户提供专属实例。
-
本地私有化部署:针对数据安全要求极高的客户(如金融、医疗),支持将模型部署在客户自己的服务器上。
-
-
数据安全与隐私:
MiniMax高度重视用户数据安全,通过《MiniMax隐私政策》和《用户协议》明确告知用户数据收集和使用规则。平台采用多重技术手段保障数据安全,包括但不限于数据加密传输、访问权限控制、审计日志等。用户输入内容不会用于未经授权的模型训练,Agent在执行任务时也在隔离的沙盒环境中运行。 -
公司实力:
MiniMax被业界称为“AI四小强”之一,团队源自清华大学计算机系,拥有顶尖的技术研发能力。公司已与国内多个智算中心、AI芯片厂商及行业应用厂商达成商业合作,技术实力和商业前景获得资本市场认可。
MiniMax常见问题
MiniMax是由上海稀宇科技有限公司开发的,这是一家成立于2021年12月的通用人工智能科技公司,核心团队源自清华大学计算机系,被业界誉为“AI四小强”之一。
MiniMax的官网地址是 https://www.minimaxi.com/ 你可以在官网上找到开放平台的入口、产品文档、API控制台以及的活动信息。
你可以把它理解成一个“AI能力超市”。MiniMax把自己研发的文本、语音、视频、音乐等多种AI大模型,通过API接口的形式开放出来。企业和开发者不需要自己从零训练模型,只需要调用这些接口,就能给自己的应用快速加上智能对话、语音合成、视频生成等能力,就像搭积木一样方便。
使用起来很简单。第一步,去官网注册账号。第二步,登录后在控制台创建一个项目,拿到你的API密钥(Access Key和Secret Key)。第三步,阅读官方文档,里面提供了Python、JavaScript等语言的代码示例,复制代码改一下密钥就能跑通第一个“你好世界”的AI调用。如果你想快速体验,也可以在官网直接试用海螺AI等原生应用,感受一下模型效果。
平台既有免费额度也有付费套餐。新用户注册能获得一些免费体验额度。对于开发者,平台推出了专门的Coding Plan套餐,每月29元起,包含固定的调用次数。大部分API也支持按实际使用量付费,比如M2模型每百万token输入只要0.3美元,性价比很高。具体价格建议以官网实时信息为准。
MiniMax非常重视数据安全,官方发布了详细的《隐私政策》和《用户协议》。平台采取了数据加密、访问控制、沙盒隔离等多种技术手段来保护用户数据。对于数据安全要求极高的客户,MiniMax还提供本地私有化部署方案,让模型和数据运行在你自己的服务器上,从根本上杜绝泄露风险。
有几个实用技巧。第一,利用好MCP协议,如果使用Claude Desktop或Cursor,可以直接配置MiniMax的MCP服务,像调用本地工具一样调用TTS、视频生成等能力。第二,在Agent场景中,可以尝试用自然语言定义SOP,Expert2.0功能会自动帮你完成工具编排,无需写代码。第三,在调用语音合成时,可以灵活调整emotion、speed、pitch等参数,让声音更贴合场景需求。
特色非常突出。是多模态能力全覆盖,文本、语音、图像、视频、音乐都有顶尖模型。是Agent能力,不只是对话,而是真正能帮你干活的“数字实习生”,比如自动处理邮件、监控系统告警、做财务模型。海螺AI的视频生成能力也很惊艳,可以生成电影级画质的视频内容,在创意广告、短视频制作中非常实用。
生成PPT方面,MiniMax本身不直接输出PPT文件,但你可以用它的文本模型帮你写PPT大纲和每一页的内容,再用Office软件制作。生成视频方面,MiniMax的海螺AI模型可以直接根据文字描述或参考图片生成高质量视频,支持T2V-01、I2V-01等多种模式,你只需要输入prompt,就能得到一段完整的视频。
MiniMax的模型具备超长上下文处理能力,可以理解并整合文本、视觉、音频等多种模态的长序列信息。具体的上下文窗口大小会根据不同模型版本有所差异,M2系列模型在处理长轮次复杂对话时表现优异。在API调用时,你可以在技术文档中找到每个模型具体的token限制。
效果非常出色。MiniMax Speech系列已经迭代到2.6版本,支持超低时延的流式输出,非常适合Agent实时对话场景。你可以选择多种情感(高兴、悲伤、愤怒等),还能进行声音复刻--上传几秒钟的音频就能生成你的专属音色。无论是做有声书、客服语音,还是给数字人配音,都能达到很高的自然度和真实感。
当然可以。如果你不需要自己编程,可以直接使用MiniMax推出的原生应用,比如海螺AI(类似智能助手,支持对话和内容生成)、星野(角色扮演类社交应用)等。这些应用把AI能力封装成了简单好用的产品,你只需要像聊天一样使用就行。如果你是业务人员,也可以尝试Agent的Expert功能,用自然语言描述需求,AI就能帮你完成复杂任务。
| 分享笔记 (共有 篇笔记) |