目录

总结: 建立在稀疏 MoE 架构上 (100 亿激活 / 2300 亿总计),M2.5 在数十万个真实环境中通过强化学习进行训练,提供最先进的编码、工具使用、搜索、办公生产力和一系列其他具有经济价值的任务。同时,它被设计得以高效推理和最佳分解任务,表现出在执行复杂代理任务时的惊人速度, 无需担心成本。
现已在 SiliconFlow 上以 $0.2/M Input | $1.0/M Output 的价格提供,M2.5 在实际的代理应用所需规模上提供了前沿级的代理智能。
我们很高兴将MiniMax M2.5引入 SiliconFlow,使全球开发者可以访问最具成本效益的前沿代理模型之一。通过在数十万个真实环境中的强化学习训练,它提供了SOTA编码、工具使用、搜索和办公生产力,同时在可持续和大规模使用上保持经济可行。
现在,通过 SiliconFlow 的 API,您可以访问:
预算友好的定价: MiniMax M2.5 的价格为 $0.2/M tokens (Input) 和 $1.0/M tokens (Output)
SOTA 编码 & 代理性能:80.2% SWE-Bench 验证,51.3% Multi-SWE-Bench 和 76.3% BrowseComp
像架构师一样思考和计划:M2.5 在编写任何代码之前主动分解和规划项目的功能、结构和UI设计,从经验丰富的软件架构师的角度出发。
无缝整合:通过 SiliconFlow 的 OpenAI 兼容 API 即时部署,或与 Claude Code、Kilo Code、Roo Code、OpenClaw等无缝集成。
无论您是在构建处理全栈项目的编码代理,运行需要多步骤搜索和推理的深度研究工作流程,还是在办公场景中生成专业级文档和财务模型,SiliconFlow 的 MiniMax M2.5 API 提供您所需的前沿情报。
M2.5 的新亮点
自 10 月下旬以来,MiniMax 先后发布了M2、M2.1,现在则是M2.5——带来了以下方面的重大改进:
像软件架构师一样编码
与前几代相比,M2.5 的一大改进是能够像架构师一样思考和计划。模型的规格写作倾向在训练过程中显现:在编写任何代码之前,M2.5 从经验丰富的软件架构师的角度出发,主动分解和规划项目的功能、结构和UI设计。
在 200,000 多个真实环境和 10 多种语言(包括 Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart 和 Ruby)中进行训练,M2.5 在编程评估中达到 SOTA 水平,尤其在多语言编码任务中取得显著提升:

除了修复错误,M2.5 现在覆盖整个开发生命周期——从 0 到 1 的系统设计到功能迭代、代码审查和最终系统测试——涵盖全栈 Web、Android、iOS 和 Windows 项目。
更智能的搜索,更好的答案
M2.5 已不再只是找到正确答案,还以更有效的路径推理结果。与 M2.1 相比,它在 BrowseComp、Wide 搜索和 RISE 基准测试中使用大约减少 20% 的推理回合完成代理任务,同时提升结果质量。

*RISE(真实互动搜索评估)是 MiniMax 内部用于衡量模型在真实专业任务中搜索能力的基准。例如,其在信息密集网页中的导航和洞察提取能力。
从 Chat 到可交付 Output
M2.5 专为在真实办公工作流程中交付真正可用的 Output 而构建。为了实现这一目标,MiniMax 紧密与财务、法律和社会科学领域的资深专业人士合作。这些专家帮助定义任务标准、设计需求、提供迭代反馈并直接贡献高质量的训练数据——将真实行业私有知识嵌入模型中。
因此,M2.5 在高价值工作场景中表现出色,包括 Word 中的文档撰写、PowerPoint 中的演示结构规划以及 Excel 中的财务建模。
在评估方面,M2.5 相较于其他主流模型的平均胜率达到了 59.0%:

*GDPval-MM,MiniMax 内部的 Cowork Agent 评估框架,通过成对比较评估可交付成果的质量和代理的专业路径,同时监控整个工作流程中的 token 成本以估算模型的实际生产力提升。
真实世界中的表现
通过 SiliconFlow 的 API 使用 MiniMax M2.5,我们测试了模型在一个简单的办公场景任务:开发一个任务管理工具。在编写任何代码之前,M2.5 开始像建筑师一样行动——起草一个结构化的 Markdown 文件,思考并计划项目,涵盖核心功能概述、目标用户和 UI/UX 规范。然后实现一个完整的 Electron 应用:主进程、IPC 桥接和 UI 层,具有任务创建、读取、更新和删除、类别/优先级过滤、到期日跟踪以及带侧边栏导航、任务卡片和模态表单的暗色主题界面。
以下是我们使用的提示和生成的应用:
提示:开发一个用于工作场所的任务管理工具,使团队或个人能够组织工作任务、会议时间表、项目截止日期和日常待办事项,具有清晰美观的 UI 仪表板。
M2.5 配置提示
要在 SiliconFlow 上获得 MiniMax M2.5 的最佳性能,请遵循以下推荐设置:
默认系统提示:
立即开始
探索:在MiniMax M2.5和SiliconFlow 模型广场中进行尝试。
整合:使用我们的 OpenAI 兼容 API。在SiliconFlow API 文档中探索完整的 API 规范。
