终极指南 - 2025年工程领域最佳开源LLM

moonshotai/Kimi-Dev-72B

Kimi-Dev-72B是一个新的开源编码大型语言模型，在SWE-bench Verified上取得了60.4%的成绩，在开源模型中创下了最先进的记录。通过大规模强化学习进行优化，它可以在Docker中自主修补真实代码库，并且只有在所有测试套件通过时才能获得奖励。这确保了模型能够提供符合实际软件工程标准的正确、健壮和实用的解决方案。

子类型：

推理，编码

开发者：moonshotai

在SiliconFlow上试用此模型

moonshotai/Kimi-Dev-72B：最先进的软件工程性能

Kimi-Dev-72B是一个新的开源编码大型语言模型，在SWE-bench Verified上取得了60.4%的成绩，在开源模型中创下了最先进的记录。通过大规模强化学习进行优化，它可以在Docker中自主修补真实代码库，并且只有在所有测试套件通过时才能获得奖励。这确保了模型能够提供符合实际软件工程标准的正确、健壮和实用的解决方案。该模型拥有720亿参数和131K上下文长度，擅长理解复杂的代码库并提供生产就绪的解决方案。在SiliconFlow上可用，输入令牌价格为$0.29/M，输出令牌价格为$1.15/M。

优点

在SWE-bench Verified上取得了开源模型中最先进的60.4%分数。
通过大规模强化学习进行优化，适用于实际工程。
通过Docker集成自主修补代码库。

缺点

与较小模型相比，推理成本更高。
部署需要大量的计算资源。

我们喜爱它的理由

它以其突破性的SWE-bench Verified性能和实用、生产就绪的代码生成能力，为开源软件工程AI树立了黄金标准。

Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder-480B-A35B-Instruct是阿里巴巴迄今为止发布的代理性最强的代码模型。它是一个混合专家（MoE）模型，总参数量为4800亿，激活参数量为350亿，平衡了效率和性能。该模型原生支持256K令牌上下文长度，使其能够处理仓库规模的代码库和复杂的编程任务。Qwen3-Coder专为代理编码工作流设计。

子类型：

编码，代理

开发者：Qwen

在SiliconFlow上试用此模型

Qwen/Qwen3-Coder-480B-A35B-Instruct：最具代理性的工程模型

Qwen3-Coder-480B-A35B-Instruct是阿里巴巴迄今为止发布的代理性最强的代码模型。它是一个混合专家（MoE）模型，总参数量为4800亿，激活参数量为350亿，平衡了效率和性能。该模型原生支持256K（约262,144）令牌上下文长度，通过YaRN等外推方法可扩展至100万令牌，使其能够处理仓库规模的代码库和复杂的编程任务。Qwen3-Coder专为代理编码工作流设计，它不仅生成代码，还能自主与开发工具和环境交互以解决复杂问题。它在各种编码和代理基准测试中取得了开源模型中的最先进结果，性能可与Claude Sonnet 4等领先模型媲美。在SiliconFlow上可用，输入令牌价格为$1.14/M，输出令牌价格为$2.28/M。

优点

最具代理性的代码模型，可自主与工具交互。
4800亿总参数，通过MoE实现高效的350亿激活。
256K原生上下文，可扩展至100万令牌，适用于仓库规模的工作。

缺点

由于模型大小和功能，定价较高。
对于简单的编码任务可能过于强大。

我们喜爱它的理由

它通过自主与开发工具交互并处理大规模代码库，彻底改变了代理编码工作流，使其成为复杂软件工程项目的终极选择。

zai-org/GLM-4.5-Air

GLM-4.5-Air是一个专门为AI代理应用设计的基础模型，基于混合专家（MoE）架构构建。它已针对工具使用、网页浏览、软件开发和前端开发进行了广泛优化，实现了与Claude Code和Roo Code等编码代理的无缝集成。GLM-4.5采用混合推理方法，适用于多样化的应用场景。

子类型：

推理，代理，编码

开发者：zai

在SiliconFlow上试用此模型

zai-org/GLM-4.5-Air：为代理驱动工程优化

GLM-4.5-Air是一个专门为AI代理应用设计的基础模型，基于混合专家（MoE）架构构建。它已针对工具使用、网页浏览、软件开发和前端开发进行了广泛优化，实现了与Claude Code和Roo Code等编码代理的无缝集成。GLM-4.5采用混合推理方法，使其能够有效适应各种应用场景——从复杂的推理任务到日常用例。凭借1060亿总参数和120亿激活参数，它以较低的推理成本提供卓越的性能。该模型支持131K上下文长度，非常适合全面的工程工作流。在SiliconFlow上可用，输入令牌价格为$0.14/M，输出令牌价格为$0.86/M。

优点

专门为AI代理应用和工具集成进行优化。
与Claude Code等流行编码代理无缝集成。
高效的MoE架构，拥有120亿激活参数。

缺点

对于最复杂的工程任务来说，模型规模不是最大的。
上下文长度小于某些专用编码模型。

我们喜爱它的理由

它在代理驱动能力、软件开发优化和成本效益之间取得了完美平衡，使其成为构建AI驱动开发工作流的工程团队的理想选择。

工程LLM对比

在此表中，我们比较了2025年领先的工程领域开源LLM，每个模型都具有独特的优势。对于具有最高SWE-bench Verified分数的生产就绪代码生成，moonshotai/Kimi-Dev-72B遥遥领先。对于大规模代理编码工作流，Qwen/Qwen3-Coder-480B-A35B-Instruct提供无与伦比的仓库理解能力。对于具有工具集成的经济高效的代理驱动开发，zai-org/GLM-4.5-Air提供了卓越的价值。这种并排比较有助于您为特定的工程需求选择合适的工具。

序号	模型	开发者	子类型	定价 (SiliconFlow)	核心优势
1	moonshotai/Kimi-Dev-72B	moonshotai	推理，编码	每百万输入令牌$0.29 / 每百万输出令牌$1.15	SWE-bench Verified 60.4% (SOTA)
2	Qwen/Qwen3-Coder-480B-A35B-Instruct	Qwen	编码，代理	每百万输入令牌$1.14 / 每百万输出令牌$2.28	最具代理性，256K-1M上下文
3	zai-org/GLM-4.5-Air	zai	推理，代理，编码	每百万输入令牌$0.14 / 每百万输出令牌$0.86	代理优化，成本效益高

常见问题

我们2025年的前三名是moonshotai/Kimi-Dev-72B、Qwen/Qwen3-Coder-480B-A35B-Instruct和zai-org/GLM-4.5-Air。这些模型在创新、软件工程任务性能以及解决代码生成、自主修补和代理开发工作流挑战的独特方法方面表现突出。

我们的深入分析显示，针对不同需求有几个领先者。moonshotai/Kimi-Dev-72B是生产就绪代码生成和自主代码库修补的首选，在开源模型中拥有最高的SWE-bench Verified分数。对于需要最大代理能力和仓库规模理解的工程师，Qwen/Qwen3-Coder-480B-A35B-Instruct凭借其256K-1M令牌上下文和自主工具交互而表现出色。对于具有出色工具集成的经济高效的代理驱动开发，zai-org/GLM-4.5-Air通过对Claude Code和Roo Code集成的优化提供了最佳价值。

终极指南 - 2025年工程领域最佳开源LLM

Elizabeth C.

什么是工程领域的开源LLM？

moonshotai/Kimi-Dev-72B

moonshotai/Kimi-Dev-72B：最先进的软件工程性能

优点

缺点

我们喜爱它的理由

Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen/Qwen3-Coder-480B-A35B-Instruct：最具代理性的工程模型

优点

缺点

我们喜爱它的理由

zai-org/GLM-4.5-Air

zai-org/GLM-4.5-Air：为代理驱动工程优化

优点

缺点

我们喜爱它的理由

工程LLM对比

常见问题

相关主题