Ling-mini-2.0 現在在 SiliconFlow：MoE 模型具有 SOTA 性能和高效能

2025年9月11日

重點摘要：Ling-mini-2.0 現在可在 SiliconFlow 上使用 — 安拓集團 inclusionAI 的 MoE 模型，結合最先進科技性能與前所未有的效率。僅需 1.4B 激活參數，就能提供 7-8B 密集性能，300+ 次代碼/秒 高速，並具備競爭力的 編碼 & 數學 能力。現在透過我們的 API 服務可以以經濟實惠的價格獲得企業級品質！

SiliconFlow 很高興推出 Ling-mini-2.0 — 一個突破性的 MoE 基於語言模型，重新定義了AI模型的高效性能。擁有 16B 總體參數，但每個 token 僅激活 1.4B，此模型達成與更大模型相當或超越的性能，成為低於 10B 密集 LLMs 中的頂級性能，為您的工作流程提供高速度和高性價比。

使用 SiliconFlow 的 Ling-mini-2.0 API，您可以期待：

成本效益定價： Ling-mini-2.0 $0.07/M token（輸入）和 $0.29/M token（輸出）。
擴展上下文窗口：131K 使用户能够处理复杂的任务。
卓越能力： 在編碼和數學推理任務中具有領先性能。

無論您是在构建复杂编程助理、数学推理应用或通用人工智能功能，SiliconFlow 的 Ling-mini-2.0 API 以成本和延遲的一小部分提供您所需的性能。

為何 Ling-mini-2.0 重要

大多数大型语言模型面临一个基本的权衡：强大的推理需要大量参数，导致延迟和高成本。开发人员通常在选择较小、快速但缺乏高级推理能力的模型和较大的模型之间徘徊，后者能提供质量但耗尽预算且使应用缓慢。

Ling-mini-2.0 改变了这一局面：

7倍等效密集性能杠杆

受Ling 缩放定律引导，Ling-mini-2.0 的1/32 激活比 採用 MoE 设计，只激活相关专家。這允许小激活 MoE 模型实现超过 7倍等效密集性能。换句话说，Ling-mini-2.0 仅使用 1.4B 激活参数（非嵌入789M）即可提供相当于 7-8B 密集模型的性能。

300+ 次代碼/秒高速生成

高度稀疏的架构允许在简单的 QA 场景中300+ 次代碼/秒生成功能 — 比可比较的 8B 密集模型快 2倍。在输出长度增加时，相对速度可以超过 7倍，使其成为实时应用的理想选择。

强大的一般和专业推理

在超过 20T 高质量的 token 上训练，并通过多阶段监督微調和强化学习增强，Ling-mini-2.0 擅长於复杂推理任务，包括編码（LiveCodeBench，CodeForces）、数学（AIME 2025，HMMT 2025）和知识密集推理（MMLU-Pro，人类最后的考试）。

与低于 10B 密集模型（如Qwen3-4B-instruct-2507，Qwen3-8B-NoThinking-2504）和大规模 MoE 模型（Ernie-4.5-21B-A3B-PT，GPT-OSS-20B/low）相比，Ling-mini-2.0 展示了出色的整体推理能力：

基准测试	Ling-Mini-2.0	Qwen3-4B-instruct-2507	Qwen3-8B-NoThinking-2504	Ernie-4.5-21B-A3B-PT	GPT-OSS-20B/low
LiveCodeBench	34.8	31.9	26.1	26.1	46.6
CodeForces	59.5	55.4	28.2	21.7	67.0
AIME 2025	47.0	48.1	23.4	16.1	38.2
HMMT 2025	🥇35.8	29.8	11.5	6.9	21.7
MMLU-Pro	65.1	62.4	52.5	65.6	65.6
人类最后的考试	🥇6.0	4.6	4.0	5.1	4.7

实际应用场景

如下在我們的 SiliconFlow playground 所示，Ling-mini-2.0 的生成速度不仅仅是一个技术基准 — 它在实际应用中改变了用户体验。

Prompt: Create a complete Snake game in Python using pygame.

凭借快速响应、强大的编码能力和高级的数学推理，Ling-mini-2.0 解锁了在速度和智力至关重要的产业中新的可能性：

实时编程助手
- 开发期间的实时代码完成。
- 没有工作中断的即时调试建议。
- 互动代码审查，及时反馈。
- 完美适合：IDE，代码编辑器，双编程工具。
互动教育平台
- 逐步数学辅导，即时解释。
- 编程训练营的实时问答。
- 互动问题解决，没有令人沮丧的延迟。
- 完美适合：教育科技平台，在线课程，学习应用。
客户支持 & 聊天机器人
- 即时响应，自然对话感觉。
- 复杂查询处理，不牺牲速度。
- 多轮对话，有效保持上下文。
- 完美适合：客户服务，技术支持，企业聊天机器人。

立即开始

1. 探索：尝试Ling-mini-2.0 在 SiliconFlow playground 中。
2. 整合：使用我们的 OpenAI 兼容 API。在 SiliconFlow API 文档中探索完整的 API 规格。

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "inclusionAI/Ling-mini-2.0",    "thinking_budget": 4096,    "top_p": 0.7,    "messages": [        {            "content": "Tell me a story",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "inclusionAI/Ling-mini-2.0",    "thinking_budget": 4096,    "top_p": 0.7,    "messages": [        {            "content": "Tell me a story",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "inclusionAI/Ling-mini-2.0",    "thinking_budget": 4096,    "top_p": 0.7,    "messages": [        {            "content": "Tell me a story",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

准备好体验 Ling-mini-2.0 的速度和智能了吗？

今天开始使用我们的 API 构建，体验高效 AI 的区别。

商业或销售查询→

立即加入我们的Discord社区→

在 X 上关注我們以获取最新动态→

探索所有在 SiliconFlow 上可用的模型→

前一篇