Ling-mini-2.0 现在在 SiliconFlow 上：MoE 模型具有最先进的性能和高效率

2025年9月11日

要点总结：Ling-mini-2.0 现已在 SiliconFlow 上发布 — 蚂蚁集团 inclusionAI 的 MoE 模型将最先进的性能与前所未有的效率相结合。仅 1.4B 激活参数，即可实现 7-8B 密集性能，300+ token/s 的高速，具有竞争力的编码和数学能力。现在，您可以通过我们的 API 服务以预算友好的价格获得企业级质量！

SiliconFlow 很高兴推出 Ling-mini-2.0 — 一种突破性的基于 MoE 的语言模型，重新定义了高效 AI 模型的可能性。总参数为 16B，但每个 token 仅激活 1.4B，这一模型可达到甚至超越更大模型的性能，在 10B 以下密集 LLM 中达到顶级性能，同时在您的工作流程中提供高速和成本效益。

通过 SiliconFlow 的 Ling-mini-2.0 API，您可以期待：

成本效益定价： Ling-mini-2.0 $0.07/M tokens（输入）和 $0.29/M tokens（输出）。
扩展上下文窗口：131K 使用户能够解决复杂任务。
卓越的能力： 在编码和数学推理任务中表现领先。

无论您是在构建复杂的编码助手、数学推理应用程序，还是通用的 AI 功能，SiliconFlow 的 Ling-mini-2.0 API 以预期成本和延迟的一小部分提供您所需的性能。

为什么 Ling-mini-2.0 重要

大多数大型语言模型面临根本性权衡：强大的推理能力需要大量参数，导致延迟和高成本。开发者通常在缺乏高级推理能力的小型、快速模型和提供质量但耗尽预算并拖慢应用程序的大型模型之间难以抉择。

Ling-mini-2.0 打破了这一局面：

7倍等效密集性能杠杆

在 Ling 缩放法则的指导下，Ling-mini-2.0 的 1/32 激活比率 MoE 设计仅激活相关专家。这使得小激活 MoE 模型能够实现 超过 7 倍等效密集性能。换句话说，Ling-mini-2.0 仅拥有 1.4B 激活参数（非嵌入 789M），但能交付等效于 7-8B 密集模型的性能。

300+ token/s 的高速生成

高度稀疏的架构使其在简单 QA 场景下支持 300+ token/s 的生成 — 比可比 8B 密集模型快 2 倍以上。随着输出长度增加，相对速度可超过 7 倍，非常适合 实时应用。

强大的通用及专业推理

在超过 20T 的高质量 tokens 上训练，并通过多阶段监督微调和强化学习增强，Ling-mini-2.0 擅长于复杂推理任务，包括编码（LiveCodeBench，CodeForces）、数学（AIME 2025，HMMT 2025）和知识密集型推理（MMLU-Pro，人类最后的考试）。

与 10B 以下的密集模型（例如，Qwen3-4B-instruct-2507、Qwen3-8B-NoThinking-2504）和大规模的 MoE 模型（Ernie-4.5-21B-A3B-PT、GPT-OSS-20B/low）相比，Ling-mini-2.0 展示了卓越的整体推理能力：

基准测试	Ling-Mini-2.0	Qwen3-4B-instruct-2507	Qwen3-8B-NoThinking-2504	Ernie-4.5-21B-A3B-PT	GPT-OSS-20B/low
LiveCodeBench	34.8	31.9	26.1	26.1	46.6
CodeForces	59.5	55.4	28.2	21.7	67.0
AIME 2025	47.0	48.1	23.4	16.1	38.2
HMMT 2025	🥇35.8	29.8	11.5	6.9	21.7
MMLU-Pro	65.1	62.4	52.5	65.6	65.6
人类最后的考试	🥇6.0	4.6	4.0	5.1	4.7

现实应用场景

正如我们在下方的 SiliconFlow 模型广场中所展示的，Ling-mini-2.0 的 生成速度 不仅仅是技术基准 — 它在实际应用中改变了用户体验。

Prompt: Create a complete Snake game in Python using pygame.

凭借快速响应、强大的编码能力和先进的数学推理，Ling-mini-2.0 在速度和智能至关重要的行业中开辟了新可能性：

实时编码助手
- 开发过程中的现场代码补全。
- 即时调试建议，不会中断工作流程。
- 交互式代码审查，立即反馈。
- 适合：IDE、代码编辑器、结对编程工具。
互动教育平台
- 提供逐步数学辅导，即时解释。
- 编程训练营的实时问答。
- 无需恼人的延迟的交互式问题解决。
- 适合：教育技术平台、在线课程、学习应用。
客户支持与聊天机器人
- 即时响应，感觉自然会话。
- 在不影响速度的情况下处理复杂查询。
- 多轮对话，高效维护上下文。
- 适合：客户服务、技术支持、企业聊天机器人。

立即开始

1. 探索： 在 Ling-mini-2.0 的 SiliconFlow 模型广场中进行尝试。
2. 集成： 使用我们的 OpenAI 兼容 API。在 SiliconFlow API 文档中探索完整的 API 规格。

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "inclusionAI/Ling-mini-2.0",    "thinking_budget": 4096,    "top_p": 0.7,    "messages": [        {            "content": "Tell me a story",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "inclusionAI/Ling-mini-2.0",    "thinking_budget": 4096,    "top_p": 0.7,    "messages": [        {            "content": "Tell me a story",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "inclusionAI/Ling-mini-2.0",    "thinking_budget": 4096,    "top_p": 0.7,    "messages": [        {            "content": "Tell me a story",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

准备好体验 Ling-mini-2.0 的速度与智能了吗？

今天就开始使用我们的 API 构建，看看高效 AI 能带来怎样的不同。

业务或销售咨询 →

立即加入我们的 Discord 社区 →

在 X 上关注我们，获取最新动态 →

在 SiliconFlow 上探索所有可用模型 →

上一个