Ling-flash-2.0 现在在 SiliconFlow 上:旗舰 MoE 模型提供 SOTA 推理和高效性

2025年9月23日

目录

Ling-flash-2.0 现在在 SiliconFlow 上

TL;DR: Ling-flash-2.0 现已在 SiliconFlow 上可用——蚂蚁集团 inclusionAI 的旗舰 MoE 语言模型,将 SOTA 推理与先进的效率相结合。总参数 100B 但只有 6.1B 激活,它的 表现可与 40B 密集模型相媲美,并拥有 131K 上下文窗口。适合复杂推理、编程和前端开发——现在通过我们的 API 服务以预算友好的成本增强您的业务和工作流程。


SiliconFlow 很高兴为您带来 Ling-flash-2.0,这是 Ling 2.0 架构下的第三款 MoE 模型。凭借 Ling-mini-2.0Ring-mini-2.0的成功推出,此次发布在结合效率和推理能力方面向前迈出了一步。通过多阶段监督微调和强化学习训练超过 20T 高质量 tokens,Ling-flash-2.0 将先进的 MoE 设计与现实世界的多功能性相结合,成为复杂推理、编程和行业特定应用的强大选择。


通过 SiliconFlow 的 Ling-flash-2.0 API,您可以期待:


  • 经济实惠的定价:Ling-flash-2.0 $0.14/M tokens(Input)和 $0.57/M tokens(Output)。

  • 高效的 MoE 设计:MoE 架构总计 100B 参数,其中仅 6.1B 激活(不含 Embedding 为 4.8B)。

  • 扩展上下文窗口:131K 上下文窗口支持用户处理复杂任务。

  • 高级能力:在推理、代码、数学以及金融和医疗等领域任务中表现出色。


为什么 Ling-flash-2.0 重要


Ling-flash-2.0 在知识密集型、数学、编程、逻辑和领域特定任务(如金融和医疗)中持续表现出强劲性能。它在更开放的应用程序中也表现出很高的竞争力,包括创意写作。


重要的是,Ling-flash-2.0 不仅在 40B 参数以下的密集模型中脱颖而出(Qwen3-32B-Non-Thinking Seed-OSS-36B (预算=0)),而且与更大的 MoE 同行(如 Hunyuan-80B-A13B-Instruct GPT-OSS-120B (低))保持竞争,同时保持明显的成本和效率优势。


基准

Ling-flash-2.0

Qwen3-32B-Non-Thinking

Seed-OSS-36B-Instruct (预算=0)

Hunyuan-80B-A13B-Instruct

GPT-OSS-120B (低)

GPQA-Diamond

🥇68.1

56.2

52.0

61.8

63.4

MMLU-PRO

🥇77.1

69.2

73.2

65.0

74.1

AIME 2025

🥇56.6

23.1

15.0

22.6

51.9

Omni-MATH

🥇53.4

33.8

29.7

39.4

42.3

KOR-Bench

68.8

57.0

44.2

47.6

73.1

ARC-Prize

🥇24.6

3.3

4.4

0.1

10.7

LiveCodeBench v6

🥇51.38

31.5

30.7

25.8

42.7

CodeForces-Elo

🥇1600

678

605

683

1520

OptMATH

🥇39.76

15.51

14.61

2.86

26.96

HealthBench

46.17

43.0

36.9

30.0

56.4

FinanceReasoning

81.59

78.5

78.1

64.3

83.8

Creative Writing V3

🥇85.17

77.57

82.17

59.69

79.09


是什么让 Ling-flash-2.0 如此高效


Ling-flash-2.0 建立在 Ling 规模定律的基础上,采用 1/32 激活率 MoE 架构。它不是盲目扩展,而是引入了一系列设计优化——从专家细粒度、共享专家比例到平衡注意力、更智能的路由策略、多 token 预测、QK 标准和部分 RoPE。


这些创新结合在一起,使模型仅用 6.1B 活跃参数就能提供约 40B 密集模型的强大功能,实现比相当的密集架构高 7 倍的效率增益。


Image


SiliconFlow 上的实际性能


此演示展示了 Ling-flash-2.0 在 SiliconFlow 模型广场中的实际性能。使用简单的提示——“编写完整的贪吃蛇游戏代码”——模型迅速生成一个完整的实现,展示了其在现实时间内无缝整合推理、编码专长和实际问题解决能力的能力。


Image


立即开始


  1. 1. 探索:Ling-flash-2.0中尝试 SiliconFlow 模型广场

  2. 2. 集成:使用我们的 OpenAI 兼容 API。在SiliconFlow API 文档中探索完整的 API 规范。


import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())
import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())
import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())


立即在 SiliconFlow 上尝试 Ling Flash 2.0,感受速度带来的不同。


业务或销售咨询→

立即加入我们的 Discord 社区→

在 X 上关注我们以获取最新更新→

查看 SiliconFlow 上的所有可用模型→



准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?