Ling-flash-2.0 現在在 SiliconFlow 上:旗艦 MoE 模型提供 SOTA 推理和高效率

2025年9月23日

目錄

Ling-flash-2.0 現已在 SiliconFlow 上
Ling-flash-2.0 現已在 SiliconFlow 上

概要:Ling-flash-2.0 現已在 SiliconFlow 上提供 — Ant Group inclusionAI 的旗艦 MoE 語言模型,結合先進效率的最先進推理。擁有 100B 總參數但僅有 6.1B 被啟用,它能提供與 40B 密集模型競爭的性能及 131K 上下文窗口。非常適合複雜推理、編碼和前端開發 — 現在透過我們的API服務以預算友好的成本賦能您的業務和工作流程。


SiliconFlow 非常高興為您帶來 Ling-flash-2.0,是 Ling 2.0 架構下的第三個 MoE 模型。建立在 Ling-mini-2.0Ring-mini-2.0 成功的基礎上,此版本在結合效率和推理能力方面向前邁進了一步。使用多階段有監督微調和強化學習訓練在超過 20T 高質量標記,Ling-flash-2.0 結合先進的 MoE 設計和實際的多功能性 — 使其成為複雜推理、編碼和行業專用應用的有力選擇。


透過 SiliconFlow 的 Ling-flash-2.0 API,您可以預期:


  • 成本效益的定價: Ling-flash-2.0 $0.14/M 標記(輸入)和 $0.57/M 標記(輸出)。

  • 有效的 MoE 設計:MoE 架構擁有 100B 總參數,但僅有 6.1B 被激活(4.8B 非嵌入)。

  • 擴展的上下文窗口:131K 上下文窗口使用戶能夠處理複雜任務。

  • 先進的能力:在推理、代碼、數學和領域任務方面,如金融和醫療保健,提供最先進的技術。


Ling-flash-2.0 為何重要


Ling-flash-2.0 在知識密集、數學、編碼、邏輯和領域特定的任務如金融和醫療保健方面不斷提供強大的性能。它還在更多開放性的應用中表現出高競爭力,包括創意寫作。


最重要的是,Ling-flash-2.0 不僅在 Qwen3-32B-Non-ThinkingSeed-OSS-36B (預算=0)這些 <40B 參數的密集模型中表現突出,而且在更大的 MoE 同行中也保持競爭力,如 Hunyuan-80B-A13B-Instruct

GPT-OSS-120B (低),同時保持明確的成本和效率優勢。



基準測試

Ling-flash-2.0

Qwen3-32B-Non-Thinking

Seed-OSS-36B-Instruct (預算=0)

Hunyuan-80B-A13B-Instruct

GPT-OSS-120B (低)

GPQA-Diamond

🥇68.1

56.2

52.0

61.8

63.4

MMLU-PRO

🥇77.1

69.2

73.2

65.0

74.1

AIME 2025

🥇56.6

23.1

15.0

22.6

51.9

Omni-MATH

🥇53.4

33.8

29.7

39.4

42.3

KOR-Bench

68.8

57.0

44.2

47.6

73.1

ARC-Prize

🥇24.6

3.3

4.4

0.1

10.7

LiveCodeBench v6

🥇51.38

31.5

30.7

25.8

42.7

CodeForces-Elo

🥇1600

678

605

683

1520

OptMATH

🥇39.76

15.51

14.61

2.86

26.96

HealthBench

46.17

43.0

36.9

30.0

56.4

FinanceReasoning

81.59

78.5

78.1

64.3

83.8

Creative Writing V3

🥇85.17

77.57

82.17

59.69

79.09


Ling-flash-2.0 為何如此高效


Ling-flash-2.0 建立在 Ling Scaling Laws 的基礎上,並使用 1/32 激活比 MoE 架構。而非進行粗暴的擴展,它引入了一系列設計改良 — 從專家粒度和共享專家比率到平衡注意力、更聰明的路由策略、多標記預測、QK-標準和部分 RoPE。


這些創新共同使得模型能夠以僅 6.1B 激活參數的方式提供 ~40B 密集模型的效能,實現相對於等效密集架構 7× 的效率增益。


Image


在 SiliconFlow 上的真實性能


此演示展示了 Ling-flash-2.0 在 SiliconFlow Playground 中的真實世界性能。使用簡單的提示 — "寫完整的 Snake 遊戲代碼" — 模型快速生成完整的實現,展示了它能夠在實時中無縫結合推理、編碼專業知識和實際問題解決能力。


Image


立即開始


  1. 1. 探索:SiliconFlow 遊樂場中嘗試 Ling-flash-2.0

  2. 2. 整合:使用我們兼容 OpenAI 的 API。在 SiliconFlow API 文件中探索完整的 API 規範。


import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())


現在就在 SiliconFlow 上試試 Ling Flash 2.0,感受速度帶來的差異。


商業或銷售詢問 →

立即加入我們的 Discord 社群 →

追蹤我們在 X 上的最新更新 →

探索 SiliconFlow 上的所有可用模型 →



準備好 加速您的人工智能開發了嗎?

準備好 加速您的人工智能開發了嗎?

準備好 加速您的人工智能開發了嗎?

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow