Ling-flash-2.0 現在在 SiliconFlow 上：旗艦 MoE 模型提供 SOTA 推理和高效率

2025年9月23日

概要：Ling-flash-2.0 現已在 SiliconFlow 上提供 — Ant Group inclusionAI 的旗艦 MoE 語言模型，結合先進效率的最先進推理。擁有 100B 總參數但僅有 6.1B 被啟用，它能提供與 40B 密集模型競爭的性能及 131K 上下文窗口。非常適合複雜推理、編碼和前端開發 — 現在透過我們的API服務以預算友好的成本賦能您的業務和工作流程。

SiliconFlow 非常高興為您帶來 Ling-flash-2.0，是 Ling 2.0 架構下的第三個 MoE 模型。建立在 Ling-mini-2.0 和 Ring-mini-2.0 成功的基礎上，此版本在結合效率和推理能力方面向前邁進了一步。使用多階段有監督微調和強化學習訓練在超過 20T 高質量標記，Ling-flash-2.0 結合先進的 MoE 設計和實際的多功能性 — 使其成為複雜推理、編碼和行業專用應用的有力選擇。

透過 SiliconFlow 的 Ling-flash-2.0 API，您可以預期：

成本效益的定價： Ling-flash-2.0 $0.14/M 標記（輸入）和 $0.57/M 標記（輸出）。
有效的 MoE 設計：MoE 架構擁有 100B 總參數，但僅有 6.1B 被激活（4.8B 非嵌入）。
擴展的上下文窗口：131K 上下文窗口使用戶能夠處理複雜任務。
先進的能力：在推理、代碼、數學和領域任務方面，如金融和醫療保健，提供最先進的技術。

Ling-flash-2.0 為何重要

Ling-flash-2.0 在知識密集、數學、編碼、邏輯和領域特定的任務如金融和醫療保健方面不斷提供強大的性能。它還在更多開放性的應用中表現出高競爭力，包括創意寫作。

最重要的是，Ling-flash-2.0 不僅在 Qwen3-32B-Non-Thinking 和 Seed-OSS-36B （預算=0）這些 <40B 參數的密集模型中表現突出，而且在更大的 MoE 同行中也保持競爭力，如 Hunyuan-80B-A13B-Instruct

和 GPT-OSS-120B （低），同時保持明確的成本和效率優勢。

基準測試	Ling-flash-2.0	Qwen3-32B-Non-Thinking	Seed-OSS-36B-Instruct (預算=0)	Hunyuan-80B-A13B-Instruct	GPT-OSS-120B (低)
GPQA-Diamond	🥇68.1	56.2	52.0	61.8	63.4
MMLU-PRO	🥇77.1	69.2	73.2	65.0	74.1
AIME 2025	🥇56.6	23.1	15.0	22.6	51.9
Omni-MATH	🥇53.4	33.8	29.7	39.4	42.3
KOR-Bench	68.8	57.0	44.2	47.6	73.1
ARC-Prize	🥇24.6	3.3	4.4	0.1	10.7
LiveCodeBench v6	🥇51.38	31.5	30.7	25.8	42.7
CodeForces-Elo	🥇1600	678	605	683	1520
OptMATH	🥇39.76	15.51	14.61	2.86	26.96
HealthBench	46.17	43.0	36.9	30.0	56.4
FinanceReasoning	81.59	78.5	78.1	64.3	83.8
Creative Writing V3	🥇85.17	77.57	82.17	59.69	79.09

Ling-flash-2.0 為何如此高效

Ling-flash-2.0 建立在 Ling Scaling Laws 的基礎上，並使用 1/32 激活比 MoE 架構。而非進行粗暴的擴展，它引入了一系列設計改良 — 從專家粒度和共享專家比率到平衡注意力、更聰明的路由策略、多標記預測、QK-標準和部分 RoPE。

這些創新共同使得模型能夠以僅 6.1B 激活參數的方式提供 ~40B 密集模型的效能，實現相對於等效密集架構 7× 的效率增益。

在 SiliconFlow 上的真實性能

此演示展示了 Ling-flash-2.0 在 SiliconFlow Playground 中的真實世界性能。使用簡單的提示 — "寫完整的 Snake 遊戲代碼" — 模型快速生成完整的實現，展示了它能夠在實時中無縫結合推理、編碼專業知識和實際問題解決能力。

立即開始

1. 探索：在 SiliconFlow 遊樂場中嘗試 Ling-flash-2.0。
2. 整合：使用我們兼容 OpenAI 的 API。在 SiliconFlow API 文件中探索完整的 API 規範。

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

現在就在 SiliconFlow 上試試 Ling Flash 2.0，感受速度帶來的差異。

商業或銷售詢問 →

立即加入我們的 Discord 社群 →

追蹤我們在 X 上的最新更新 →

探索 SiliconFlow 上的所有可用模型 →

前一篇