Ling-flash-2.0 现在在 SiliconFlow 上：旗舰 MoE 模型提供 SOTA 推理和高效性

2025年9月23日

TL;DR: Ling-flash-2.0 现已在 SiliconFlow 上可用——蚂蚁集团 inclusionAI 的旗舰 MoE 语言模型，将 SOTA 推理与先进的效率相结合。总参数 100B 但只有 6.1B 激活，它的表现可与 40B 密集模型相媲美，并拥有 131K 上下文窗口。适合复杂推理、编程和前端开发——现在通过我们的 API 服务以预算友好的成本增强您的业务和工作流程。

SiliconFlow 很高兴为您带来 Ling-flash-2.0，这是 Ling 2.0 架构下的第三款 MoE 模型。凭借 Ling-mini-2.0和 Ring-mini-2.0的成功推出，此次发布在结合效率和推理能力方面向前迈出了一步。通过多阶段监督微调和强化学习训练超过 20T 高质量 tokens，Ling-flash-2.0 将先进的 MoE 设计与现实世界的多功能性相结合，成为复杂推理、编程和行业特定应用的强大选择。

通过 SiliconFlow 的 Ling-flash-2.0 API，您可以期待：

经济实惠的定价：Ling-flash-2.0 $0.14/M tokens（Input）和 $0.57/M tokens（Output）。
高效的 MoE 设计：MoE 架构总计 100B 参数，其中仅 6.1B 激活（不含 Embedding 为 4.8B）。
扩展上下文窗口：131K 上下文窗口支持用户处理复杂任务。
高级能力：在推理、代码、数学以及金融和医疗等领域任务中表现出色。

为什么 Ling-flash-2.0 重要

Ling-flash-2.0 在知识密集型、数学、编程、逻辑和领域特定任务（如金融和医疗）中持续表现出强劲性能。它在更开放的应用程序中也表现出很高的竞争力，包括创意写作。

重要的是，Ling-flash-2.0 不仅在 40B 参数以下的密集模型中脱颖而出（Qwen3-32B-Non-Thinking 和 Seed-OSS-36B (预算=0)），而且与更大的 MoE 同行（如 Hunyuan-80B-A13B-Instruct 和 GPT-OSS-120B (低)）保持竞争，同时保持明显的成本和效率优势。

基准	Ling-flash-2.0	Qwen3-32B-Non-Thinking	Seed-OSS-36B-Instruct (预算=0)	Hunyuan-80B-A13B-Instruct	GPT-OSS-120B (低)
GPQA-Diamond	🥇68.1	56.2	52.0	61.8	63.4
MMLU-PRO	🥇77.1	69.2	73.2	65.0	74.1
AIME 2025	🥇56.6	23.1	15.0	22.6	51.9
Omni-MATH	🥇53.4	33.8	29.7	39.4	42.3
KOR-Bench	68.8	57.0	44.2	47.6	73.1
ARC-Prize	🥇24.6	3.3	4.4	0.1	10.7
LiveCodeBench v6	🥇51.38	31.5	30.7	25.8	42.7
CodeForces-Elo	🥇1600	678	605	683	1520
OptMATH	🥇39.76	15.51	14.61	2.86	26.96
HealthBench	46.17	43.0	36.9	30.0	56.4
FinanceReasoning	81.59	78.5	78.1	64.3	83.8
Creative Writing V3	🥇85.17	77.57	82.17	59.69	79.09

是什么让 Ling-flash-2.0 如此高效

Ling-flash-2.0 建立在 Ling 规模定律的基础上，采用 1/32 激活率 MoE 架构。它不是盲目扩展，而是引入了一系列设计优化——从专家细粒度、共享专家比例到平衡注意力、更智能的路由策略、多 token 预测、QK 标准和部分 RoPE。

这些创新结合在一起，使模型仅用 6.1B 活跃参数就能提供约 40B 密集模型的强大功能，实现比相当的密集架构高 7 倍的效率增益。

SiliconFlow 上的实际性能

此演示展示了 Ling-flash-2.0 在 SiliconFlow 模型广场中的实际性能。使用简单的提示——“编写完整的贪吃蛇游戏代码”——模型迅速生成一个完整的实现，展示了其在现实时间内无缝整合推理、编码专长和实际问题解决能力的能力。

立即开始

1. 探索：在 Ling-flash-2.0中尝试 SiliconFlow 模型广场。
2. 集成：使用我们的 OpenAI 兼容 API。在SiliconFlow API 文档中探索完整的 API 规范。

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

立即在 SiliconFlow 上尝试 Ling Flash 2.0，感受速度带来的不同。

业务或销售咨询→

立即加入我们的 Discord 社区→

在 X 上关注我们以获取最新更新→

查看 SiliconFlow 上的所有可用模型→

上一个