目录

简而言之: Kimi K2.5 现已在 SiliconFlow 上线。作为迄今为止最强大的开源模型,它结合了最先进的编码和 Vision 能力,以及自导向的Agent Swarm架构,能够协调多达100个子代理和1,500个工具调用。这使得执行速度比单代理执行提高了4.5倍。凭借这些能力,K2.5 在编码与 Vision 集成、代理工作流和实际办公生产力场景中表现出色。今天就开始利用 SiliconFlow 的 API 构建,将最先进的视觉代理智能投入生产。
我们很高兴将 Kimi K2.5 带入SiliconFlow,为全球开发者开启可视化代理智能的新纪元。它在Kimi K2的基础上建立,通过约15万亿混合视觉和文本 tokens 的持续预训练,具备了最先进的编码和 Vision 能力作为一个本地 Multimodal 模型。K2.5还引入了自导向的 Agent Swarm 模式,能够协调多达100个专业子代理执行并行工作流,达到1,500个协调步骤,无需预先定义角色或手工编写的工作流程。
现在,通过 SiliconFlow 的 Kimi K2.5 API,你可以期待:
具有竞争力的定价:Kimi K2.5: 每百万 tokens(输入)$0.55和每百万 tokens(输出)$3.0
262K Context Window:处理长文档、复杂对话和丰富视觉输入的扩展多代理工作流。
无缝集成:通过 SiliconFlow 的 OpenAI 兼容 API 即刻部署,或无缝集成到 Claude Code、Kilo Code、Roo Code、OpenClaw 等更多平台。
无论是从视觉提示构建交互前端、通过并行代理执行进行复杂研究,还是自动化办公工作流以生成专家级文档和演示文稿,SiliconFlow 的 Kimi K2.5 API 都能提供所需的性能。
在接下来的部分中,我们将分解 K2.5 的关键功能,展示其通过 SiliconFlow API 在现实世界任务中的表现,并提供配置技巧以最大化工作流的性能。
K2.5 有什么新特点
看看它如何从单一截图中重建网站,通过自然对话优化代码,以及将设计模型转换为生产就绪的带动画 React 组件。当面临市场分析任务时,它能协调100个专业研究人员执行1,500个并行协调步骤。
这次,K2.5 提供了三个基本特征:
本地多模态性
K2.5 在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色——这些能力源于其训练中的一个基本见解:在大规模下,Vision 和文本不是竞争关系,而是相互加强。 基于15万亿视觉–语言 tokens 从零开始的预训练,让 K2.5 学会将视觉和编码视为统一的技能。
编码与 Vision
它不仅仅是“看”Image——它能够跨视觉输入进行推理并将其直接转换为生产就绪的代码。作为迄今为止最强的开源模型,K2.5 特别擅长前端开发。 给它一个UI截图,它可以调试布局问题;上传设计模型,它可以生成带动画与响应式布局的互动式 React 组件。这从根本上改变了开发者表达意图的方式并降低了构建障碍:开发者不必撰写详细的规范,而是可以通过视觉告诉 K2.5 自己想要什么。
提示:嘿,我真的很喜欢 Zara 网站的整体风格(附带截图)——你知道的,那种简约风格,带有出色的排版和流畅的动画。同时,我想为我的设计作品制作一个风格类似的作品集网站。还能确保布局稳固,没有重叠元素或任何问题。所有内容应该在打开时完全正常且干净。
Agent Swarm 机制
K2.5 从单一代理的扩展转向自协调 Agent Swarm——将复杂任务分解为由专业代理执行的并行子任务。
它是这样工作的:让 K2.5 识别100个细分专业领域内的三大 YouTube 博主。调度者首先研究并定义这些多样化领域——从计算语言学到量子化学应有尽有。然后,它生成100个专业化子代理,每个负责研究一个特定领域。这些代理并行工作,独立收集数据并分析内容创作者。结果?300 个详尽的 YouTuber 档案和一份综合报告——大大缩短了单一代理所需的时间。
在 Moonshot AI 的内部评估中,K2.5 Agent Swarm 带来了80%的端到端运行时间减少,同时允许更复杂的长时间工作负载,如下所示。

基准性能
Kimi K2.5 在 代理基准测试中排名第一,在其他主要类别中达到前沿性表现,使其跻身 GPT-5.2,Claude 4.5 Opus 和 Gemini 3.0 Pro 相同的层次。这种综合能力使其准备好在各种工作流中进行生产部署:
类别 | 基准 | Kimi K2.5 | GPT-5.2 (超高) | Claude 4.5 Opus (扩展思维) | Gemini 3 Pro |
代理 | HLE-Full | 🥇50.2 | 45.5 | 43.2 | 45.8 |
BrowseComp | 🥇74.9 | 65.8 | 57.8 | 59.2 | |
DeepSearchQA | 🥇77.1 | 71.3 | 76.1 | 63.2 | |
编码 | SWE-Bench 已验证 | 76.8 | 80 | 80.9 | 76.2 |
SWE-Bench 多语言 | 73 | 72 | 77.5 | 65 | |
Image | MMMU Pro | 78.5 | 79.5 | 74 | 81 |
MathVision | 84.2 | 83 | 77.1 | 86.1 | |
OmniDocBench 1.5 | 🥇88.8 | 85.7 | 87.7 | 88.5 | |
Video | VideoMMMU | 86.6 | 85.9 | 84.4 | 87.6 |
LongVideoBench | 🥇79.8 | 76.5 | 67.2 | 77.7 |
自推出以来,Kimi K2.5 还在其他评估领域引起了轰动:
OSWorld(代理执行):以63.3%的成功率排名第一,超越 Claude Sonnet 4.5(62.9%)和Seed-1.8(61.9%)在真实计算机环境任务中的表现。
DesignArena(UI 生成):以1349的分数领先所有模型,超越了 Gemini 3 Pro、Claude Opus 4.5 和 GLM-4.7。K2.5 在3D设计、网站创建和SVG生成任务中表现特别出色。
Vision Arena(Multimodal):在开源模型中排名第一,在总体排名中以1249分名列第六,领先于GPT-5.1(1238)在理解和处理视觉输入方面的表现。
在您最喜爱的工具中启动 K2.5
Kimi K2.5 现已在 SiliconFlow 上线。通过以下方式将其集成到您的开发工作流程中:
Kilo Code/Claude Code/Cline/Roo Code/OpenClaw/SillyTavern/Kimi Code/Trae等更多
K2.5 配置技巧
要在 SiliconFlow 上获取 Kimi K2.5 的最佳性能,请遵循以下推荐设置:
参数 | 推荐 | 备注 |
即时模式:快速响应,日常任务 | ||
enable_thinking | FALSE | 禁用推理过程以更快的响应 |
temperature | 0.6 | 优化用于一致的、集中的输出 |
top_p | 0.95 | 标准采样参数 |
思考模式:深度推理,复杂问题 | ||
enable_thinking | TRUE | 启用逐步推理 |
temperature | 1.0 | 更高创造力的复杂推理 |
top_p | 0.95 | 标准采样参数 |
注意:视频输入目前是实验性的,仅由 MoonShotAI 的官方 API 支持。
立即开始
探索: 在SiliconFlow 模型广场中尝试Kimi K2.5。
集成: 使用我们的 OpenAI 兼容 API。 在SiliconFlow API 文档中探索完整的 API 规格。
