终极指南 - 2025年最佳开源推理LLM

DeepSeek-R1

DeepSeek-R1-0528是一款由强化学习（RL）驱动的推理模型，解决了重复性和可读性问题。在RL之前，DeepSeek-R1整合了冷启动数据，以进一步优化其推理性能。它在数学、代码和推理任务上实现了与OpenAI-o1相当的性能，并通过精心设计的训练方法，提升了整体有效性。

子类型：

推理

开发者：deepseek-ai

在SiliconFlow上试用此模型

DeepSeek-R1：最先进的推理性能

DeepSeek-R1-0528是一款由强化学习（RL）驱动的推理模型，解决了重复性和可读性问题。在RL之前，DeepSeek-R1整合了冷启动数据，以进一步优化其推理性能。它在数学、代码和推理任务上实现了与OpenAI-o1相当的性能，并通过精心设计的训练方法，提升了整体有效性。凭借采用MoE架构的671B参数和164K的上下文长度，它代表了开源推理能力的巅峰。

优点

在推理基准测试中性能与OpenAI-o1相当。
先进的强化学习优化。
671B参数，采用高效MoE架构。

缺点

由于模型规模较大，计算要求更高。
在SiliconFlow上输出每百万token定价为$2.18，价格较高。

我们喜爱它的理由

它以开源软件包的形式提供OpenAI-o1级别的性能，使全球研究人员和开发人员都能获得世界级的推理能力。

MiniMax-M1-80k

MiniMax-M1是一款开放权重、大规模混合注意力推理模型，拥有456B参数，每token激活45.9B。它原生支持1M token上下文，闪电注意力（lightning attention）在100K token时比DeepSeek R1节省75%的FLOPs，并利用MoE架构。通过CISPO和混合设计进行高效RL训练，在长输入推理和实际软件工程任务上实现了最先进的性能。

子类型：

推理

开发者：MiniMaxAI

在SiliconFlow上试用此模型

MiniMax-M1-80k：高效大规模推理

MiniMax-M1是一款开放权重、大规模混合注意力推理模型，拥有456B参数，每token激活45.9B。它原生支持1M token上下文，闪电注意力（lightning attention）在100K token时比DeepSeek R1节省75%的FLOPs，并利用MoE架构。通过CISPO和混合设计进行高效RL训练，在长输入推理和实际软件工程任务上实现了最先进的性能，使其成为复杂、扩展推理场景的理想选择。

优点

456B参数，每token高效激活45.9B。
原生支持1M token上下文，用于广泛推理。
与DeepSeek R1相比，FLOPs节省75%。

缺点

复杂的混合架构可能需要专业知识。
在SiliconFlow上输出每百万token定价为$2.2，价格最高。

我们喜爱它的理由

它将大规模与惊人的效率相结合，提供卓越的推理性能，同时比竞争对手使用更少的计算资源。

Kimi-Dev-72B

Kimi-Dev-72B是一款新的开源编码大型语言模型，在SWE-bench Verified上取得了60.4%的成绩，在开源模型中创下了最先进的记录。通过大规模强化学习优化，它能自主修补Docker中的真实代码库，并且只有在所有测试套件通过时才获得奖励。这确保了模型提供符合实际软件工程标准的正确、健壮和实用的解决方案。

子类型：

推理

开发者：moonshotai

在SiliconFlow上试用此模型

Kimi-Dev-72B：编码与工程推理专家

Kimi-Dev-72B是一款新的开源编码大型语言模型，在SWE-bench Verified上取得了60.4%的成绩，在开源模型中创下了最先进的记录。通过大规模强化学习优化，它能自主修补Docker中的真实代码库，并且只有在所有测试套件通过时才获得奖励。这确保了模型提供符合实际软件工程标准的正确、健壮和实用的解决方案。凭借72B参数和131K的上下文长度，它以具有竞争力的SiliconFlow定价提供卓越的推理能力。

优点

在SWE-bench Verified上取得60.4%的最先进分数。
专注于实际软件工程推理。
在SiliconFlow上输出每百万token定价为$1.15，最具成本效益。

缺点

与其他顶级模型相比，参数数量较少。
主要针对编码而非通用推理进行优化。

我们喜爱它的理由

它擅长实际软件工程推理，同时提供最佳价值主张，使所有开发人员都能获得先进的编码智能。

推理模型对比

在此表中，我们对比了2025年领先的开源推理模型，每个模型都具有独特的优势。对于通用推理任务，DeepSeek-R1提供与OpenAI-o1相当的性能。对于效率和长上下文推理，MiniMax-M1-80k提供了卓越的计算节省。对于软件工程和编码推理，Kimi-Dev-72B以最佳性价比提供最先进的结果。此对比有助于您在SiliconFlow上根据您的特定推理需求和预算选择合适的模型。

序号	模型	开发者	子类型	SiliconFlow定价	核心优势
1	DeepSeek-R1	deepseek-ai	推理	输出每百万token $2.18	性能与OpenAI-o1相当
2	MiniMax-M1-80k	MiniMaxAI	推理	输出每百万token $2.2	FLOPs节省75%，1M上下文
3	Kimi-Dev-72B	moonshotai	推理	输出每百万token $1.15	最佳编码推理性价比

常见问题

我们2025年的三大推荐是DeepSeek-R1、MiniMax-M1-80k和Kimi-Dev-72B。这些模型都因其卓越的推理能力、创新架构以及解决复杂逻辑和数学问题的独特方法而脱颖而出。

我们的分析显示了专业优势：DeepSeek-R1在通用数学和逻辑推理方面表现出色，可与闭源模型媲美。MiniMax-M1-80k是需要大量信息处理的长上下文推理任务的理想选择。Kimi-Dev-72B凭借其60.4%的SWE-bench Verified分数，在编码和软件工程推理方面无与伦比。

终极指南 - 2025年最佳开源推理LLM

Elizabeth C.

什么是用于推理的开源LLM？

DeepSeek-R1

DeepSeek-R1：最先进的推理性能

优点

缺点

我们喜爱它的理由

MiniMax-M1-80k

MiniMax-M1-80k：高效大规模推理

优点

缺点

我们喜爱它的理由

Kimi-Dev-72B

Kimi-Dev-72B：编码与工程推理专家

优点

缺点

我们喜爱它的理由

推理模型对比

常见问题

相关主题