終極指南 - 2025年工程領域最佳開源大型語言模型

moonshotai/Kimi-Dev-72B

Kimi-Dev-72B 是一個新的開源編碼大型語言模型，在 SWE-bench Verified 上達到 60.4% 的分數，在開源模型中創下最先進的紀錄。透過大規模強化學習進行優化，它能自主修補 Docker 中的真實程式碼庫，並且只有在所有測試套件通過時才獲得獎勵。這確保了模型提供正確、穩健且實用的解決方案，符合真實世界的軟體工程標準。

子類型：

推理、編碼

開發者：moonshotai

在SiliconFlow上試用此模型

moonshotai/Kimi-Dev-72B：最先進的軟體工程性能

Kimi-Dev-72B 是一個新的開源編碼大型語言模型，在 SWE-bench Verified 上達到 60.4% 的分數，在開源模型中創下最先進的紀錄。透過大規模強化學習進行優化，它能自主修補 Docker 中的真實程式碼庫，並且只有在所有測試套件通過時才獲得獎勵。這確保了模型提供正確、穩健且實用的解決方案，符合真實世界的軟體工程標準。該模型擁有 720 億個參數和 131K 的上下文長度，擅長理解複雜的程式碼庫並提供可投入生產的解決方案。在 SiliconFlow 上可用，輸入代幣每百萬 $0.29，輸出代幣每百萬 $1.15。

優點

在開源模型中，SWE-bench Verified 達到最先進的 60.4% 分數。
透過大規模強化學習進行優化，適用於真實世界的工程。
透過 Docker 整合自主修補程式碼庫。

缺點

與較小的模型相比，推理成本較高。
部署需要大量的計算資源。

我們為何喜愛它

它以其突破性的 SWE-bench Verified 性能和實用、可投入生產的程式碼生成能力，為開源軟體工程 AI 樹立了黃金標準。

Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder-480B-A35B-Instruct 是阿里巴巴迄今發布的最具代理能力的程式碼模型。它是一個混合專家 (MoE) 模型，總參數為 4800 億，激活參數為 350 億，平衡了效率和性能。該模型原生支援 256K 代幣上下文長度，使其能夠處理儲存庫規模的程式碼庫和複雜的程式設計任務。Qwen3-Coder 專為代理編碼工作流程而設計。

子類型：

編碼、代理

開發者：Qwen

在SiliconFlow上試用此模型

Qwen/Qwen3-Coder-480B-A35B-Instruct：最具代理能力的工程模型

Qwen3-Coder-480B-A35B-Instruct 是阿里巴巴迄今發布的最具代理能力的程式碼模型。它是一個混合專家 (MoE) 模型，總參數為 4800 億，激活參數為 350 億，平衡了效率和性能。該模型原生支援 256K（約 262,144）代幣上下文長度，可使用 YaRN 等外推方法擴展至 100 萬代幣，使其能夠處理儲存庫規模的程式碼庫和複雜的程式設計任務。Qwen3-Coder 專為代理編碼工作流程而設計，它不僅生成程式碼，還能自主與開發者工具和環境互動以解決複雜問題。它在各種編碼和代理基準測試中，在開源模型中取得了最先進的結果，性能可與 Claude Sonnet 4 等領先模型媲美。在 SiliconFlow 上可用，輸入代幣每百萬 $1.14，輸出代幣每百萬 $2.28。

優點

最具代理能力的程式碼模型，具備自主工具互動功能。
4800 億總參數，透過 MoE 高效激活 350 億參數。
256K 原生上下文，可擴展至 100 萬代幣，適用於儲存庫規模的工作。

缺點

由於模型大小和功能，定價較高。
對於簡單的編碼任務可能過度。

我們為何喜愛它

它透過自主與開發者工具互動並處理大量程式碼庫，徹底改變了代理編碼工作流程，使其成為複雜軟體工程專案的終極選擇。

zai-org/GLM-4.5-Air

GLM-4.5-Air 是一個專為 AI 代理應用設計的基礎模型，建立在混合專家 (MoE) 架構之上。它已針對工具使用、網路瀏覽、軟體開發和前端開發進行了廣泛優化，實現了與 Claude Code 和 Roo Code 等編碼代理的無縫整合。GLM-4.5 採用混合推理方法，適用於多樣化的應用場景。

子類型：

推理、代理、編碼

開發者：zai

在SiliconFlow上試用此模型

zai-org/GLM-4.5-Air：為代理驅動工程優化

GLM-4.5-Air 是一個專為 AI 代理應用設計的基礎模型，建立在混合專家 (MoE) 架構之上。它已針對工具使用、網路瀏覽、軟體開發和前端開發進行了廣泛優化，實現了與 Claude Code 和 Roo Code 等編碼代理的無縫整合。GLM-4.5 採用混合推理方法，使其能夠有效適應各種應用場景——從複雜的推理任務到日常用例。憑藉 1060 億總參數和 120 億激活參數，它以較低的推理成本提供卓越的性能。該模型支援 131K 的上下文長度，使其成為全面工程工作流程的理想選擇。在 SiliconFlow 上可用，輸入代幣每百萬 $0.14，輸出代幣每百萬 $0.86。

優點

專為 AI 代理應用和工具整合進行優化。
與 Claude Code 等流行編碼代理無縫整合。
高效的 MoE 架構，具有 120 億激活參數。

缺點

對於最複雜的工程任務來說，模型規模不是最大的。
上下文長度小於某些專用編碼模型。

我們為何喜愛它

它在代理驅動功能、軟體開發優化和成本效益之間取得了完美平衡，使其成為構建 AI 驅動開發工作流程的工程團隊的理想選擇。

工程領域大型語言模型比較

在此表格中，我們比較了 2025 年領先的工程領域開源大型語言模型，每個模型都具有獨特的優勢。對於具有最高 SWE-bench Verified 分數的生產就緒程式碼生成，moonshotai/Kimi-Dev-72B 領先群雄。對於大規模代理編碼工作流程，Qwen/Qwen3-Coder-480B-A35B-Instruct 提供無與倫比的儲存庫理解能力。對於具有工具整合功能的經濟高效的代理驅動開發，zai-org/GLM-4.5-Air 提供卓越的價值。這種並排比較有助於您為特定的工程需求選擇合適的工具。

編號	模型	開發者	子類型	定價 (SiliconFlow)	核心優勢
1	moonshotai/Kimi-Dev-72B	moonshotai	推理、編碼	每百萬代幣輸入 $0.29 / 輸出 $1.15	60.4% SWE-bench Verified (SOTA)
2	Qwen/Qwen3-Coder-480B-A35B-Instruct	Qwen	編碼、代理	每百萬代幣輸入 $1.14 / 輸出 $2.28	最具代理能力，256K-1M 上下文
3	zai-org/GLM-4.5-Air	zai	推理、代理、編碼	每百萬代幣輸入 $0.14 / 輸出 $0.86	代理優化，成本效益高

常見問題

我們對 2025 年的三大推薦是 moonshotai/Kimi-Dev-72B、Qwen/Qwen3-Coder-480B-A35B-Instruct 和 zai-org/GLM-4.5-Air。這些模型在創新、軟體工程任務性能以及解決程式碼生成、自主修補和代理開發工作流程挑戰的獨特方法方面表現突出。

我們的深入分析顯示，針對不同需求有幾個領先者。moonshotai/Kimi-Dev-72B 是生產就緒程式碼生成和自主程式碼庫修補的首選，在開源模型中擁有最高的 SWE-bench Verified 分數。對於需要最大代理能力和儲存庫規模理解的工程師，Qwen/Qwen3-Coder-480B-A35B-Instruct 以其 256K-1M 代幣上下文和自主工具互動而表現出色。對於具有出色工具整合功能的經濟高效的代理驅動開發，zai-org/GLM-4.5-Air 透過對 Claude Code 和 Roo Code 整合的優化提供了最佳價值。

終極指南 - 2025年工程領域最佳開源大型語言模型

Elizabeth C.

什麼是工程領域的開源大型語言模型？

moonshotai/Kimi-Dev-72B

moonshotai/Kimi-Dev-72B：最先進的軟體工程性能

優點

缺點

我們為何喜愛它

Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen/Qwen3-Coder-480B-A35B-Instruct：最具代理能力的工程模型

優點

缺點

我們為何喜愛它

zai-org/GLM-4.5-Air

zai-org/GLM-4.5-Air：為代理驅動工程優化

優點

缺點

我們為何喜愛它

工程領域大型語言模型比較

常見問題

相關主題