目录

TL;DR: Ling-flash-2.0 现已在 SiliconFlow 上可用——蚂蚁集团 inclusionAI 的旗舰 MoE 语言模型,将 SOTA 推理与先进的效率相结合。总参数 100B 但只有 6.1B 激活,它的 表现可与 40B 密集模型相媲美,并拥有 131K 上下文窗口。适合复杂推理、编程和前端开发——现在通过我们的 API 服务以预算友好的成本增强您的业务和工作流程。
SiliconFlow 很高兴为您带来 Ling-flash-2.0,这是 Ling 2.0 架构下的第三款 MoE 模型。凭借 Ling-mini-2.0和 Ring-mini-2.0的成功推出,此次发布在结合效率和推理能力方面向前迈出了一步。通过多阶段监督微调和强化学习训练超过 20T 高质量 tokens,Ling-flash-2.0 将先进的 MoE 设计与现实世界的多功能性相结合,成为复杂推理、编程和行业特定应用的强大选择。
通过 SiliconFlow 的 Ling-flash-2.0 API,您可以期待:
经济实惠的定价:Ling-flash-2.0 $0.14/M tokens(Input)和 $0.57/M tokens(Output)。
高效的 MoE 设计:MoE 架构总计 100B 参数,其中仅 6.1B 激活(不含 Embedding 为 4.8B)。
扩展上下文窗口:131K 上下文窗口支持用户处理复杂任务。
高级能力:在推理、代码、数学以及金融和医疗等领域任务中表现出色。
为什么 Ling-flash-2.0 重要
Ling-flash-2.0 在知识密集型、数学、编程、逻辑和领域特定任务(如金融和医疗)中持续表现出强劲性能。它在更开放的应用程序中也表现出很高的竞争力,包括创意写作。
重要的是,Ling-flash-2.0 不仅在 40B 参数以下的密集模型中脱颖而出(Qwen3-32B-Non-Thinking 和 Seed-OSS-36B (预算=0)),而且与更大的 MoE 同行(如 Hunyuan-80B-A13B-Instruct 和 GPT-OSS-120B (低))保持竞争,同时保持明显的成本和效率优势。
基准 | Ling-flash-2.0 | Qwen3-32B-Non-Thinking | Seed-OSS-36B-Instruct (预算=0) | Hunyuan-80B-A13B-Instruct | GPT-OSS-120B (低) |
|---|---|---|---|---|---|
GPQA-Diamond | 🥇68.1 | 56.2 | 52.0 | 61.8 | 63.4 |
MMLU-PRO | 🥇77.1 | 69.2 | 73.2 | 65.0 | 74.1 |
AIME 2025 | 🥇56.6 | 23.1 | 15.0 | 22.6 | 51.9 |
Omni-MATH | 🥇53.4 | 33.8 | 29.7 | 39.4 | 42.3 |
KOR-Bench | 68.8 | 57.0 | 44.2 | 47.6 | 73.1 |
ARC-Prize | 🥇24.6 | 3.3 | 4.4 | 0.1 | 10.7 |
LiveCodeBench v6 | 🥇51.38 | 31.5 | 30.7 | 25.8 | 42.7 |
CodeForces-Elo | 🥇1600 | 678 | 605 | 683 | 1520 |
OptMATH | 🥇39.76 | 15.51 | 14.61 | 2.86 | 26.96 |
HealthBench | 46.17 | 43.0 | 36.9 | 30.0 | 56.4 |
FinanceReasoning | 81.59 | 78.5 | 78.1 | 64.3 | 83.8 |
Creative Writing V3 | 🥇85.17 | 77.57 | 82.17 | 59.69 | 79.09 |
是什么让 Ling-flash-2.0 如此高效
Ling-flash-2.0 建立在 Ling 规模定律的基础上,采用 1/32 激活率 MoE 架构。它不是盲目扩展,而是引入了一系列设计优化——从专家细粒度、共享专家比例到平衡注意力、更智能的路由策略、多 token 预测、QK 标准和部分 RoPE。
这些创新结合在一起,使模型仅用 6.1B 活跃参数就能提供约 40B 密集模型的强大功能,实现比相当的密集架构高 7 倍的效率增益。

SiliconFlow 上的实际性能
此演示展示了 Ling-flash-2.0 在 SiliconFlow 模型广场中的实际性能。使用简单的提示——“编写完整的贪吃蛇游戏代码”——模型迅速生成一个完整的实现,展示了其在现实时间内无缝整合推理、编码专长和实际问题解决能力的能力。

立即开始
1. 探索:在 Ling-flash-2.0中尝试 SiliconFlow 模型广场。
2. 集成:使用我们的 OpenAI 兼容 API。在SiliconFlow API 文档中探索完整的 API 规范。
立即在 SiliconFlow 上尝试 Ling Flash 2.0,感受速度带来的不同。
