Ling-flash-2.0 現在SiliconFlowで提供: フラッグシップMoE ModelがSOTA推論と高効率を実現

2025/09/23

TL;DR: Ling-flash-2.0 は、SiliconFlow で利用可能になりました— Ant Group inclusionAI のフラッグシップMoE言語モデルで、SOTAの推論と高度な効率性を組み合わせています。100B のパラメータ総数のうち6.1B のみが有効化されており、 40Bの高密度モデルに匹敵する性能 と 131K のコンテキストウィンドウを提供します。複雑な推論、コーディング、フロントエンド開発に最適で、私たちのAPIサービスを通じて予算に優しいコストでビジネスとワークフローを強化します。

SiliconFlow は、Ling-flash-2.0 をお届けできることを誇りに思います。これは、Ling 2.0 アーキテクチャに基づく三番目の MoE モデルです。Ling-mini-2.0 および Ring-mini-2.0 の成功を基に、このリリースは効率性と推論能力の組み合わせにおける一歩前進を反映しています。20T の高品質なtokensをマルチステージの監督付きファインチューニングと強化学習で訓練されており、Ling-flash-2.0 は高度なMoEデザインと現実の汎用性を兼ね備え、複雑な推論、コーディング、業界特化のアプリケーションにおける強力な選択肢となっています。

SiliconFlowの Ling-flash-2.0 API を通じて、以下のことが期待できます:

コスト効率の高い価格設定: Ling-flash-2.0 は $0.14/M tokens (Input) と $0.57/M tokens (Output) の料金です。
効率的なMoEデザイン: MoEアーキテクチャは 100B の総パラメータで、6.1B のみが有効化されています（4.8B非Embedding）。
拡張されたコンテキストウィンドウ: 131K のコンテキストウィンドウにより、ユーザーは複雑なタスクに取り組むことができます。
高度な機能: 推論、コード、数学、および金融やヘルスケアなどのドメインタスクにおけるSOTA。

Ling-flash-2.0 の重要性

Ling-flash-2.0 は、知識集約型、数理的、コーディング、論理、金融やヘルスケアなどのドメイン特定タスクにわたって一貫して強力なパフォーマンスを発揮しています。また、創造的な文章作成を含むよりオープンエンドなアプリケーションにおいても高い競争力を示しています。

重要なのは、Ling-flash-2.0 が Qwen3-32B-Non-Thinking や Seed-OSS-36B（予算=0）などの 40B 未満の高密度モデルを凌駕するだけでなく、Hunyuan-80B-A13B-Instruct や GPT-OSS-120B（低）などのより大規模なMoEの同業者と競争力を保持しつつ、明確なコストと効率性の優位性を維持しています。

ベンチマーク	Ling-flash-2.0	Qwen3-32B-Non-Thinking	Seed-OSS-36B-Instruct（予算=0）	Hunyuan-80B-A13B-Instruct	GPT-OSS-120B（低）
GPQA-Diamond	🥇68.1	56.2	52.0	61.8	63.4
MMLU-PRO	🥇77.1	69.2	73.2	65.0	74.1
AIME 2025	🥇56.6	23.1	15.0	22.6	51.9
Omni-MATH	🥇53.4	33.8	29.7	39.4	42.3
KOR-Bench	68.8	57.0	44.2	47.6	73.1
ARC-Prize	🥇24.6	3.3	4.4	0.1	10.7
LiveCodeBench v6	🥇51.38	31.5	30.7	25.8	42.7
CodeForces-Elo	🥇1600	678	605	683	1520
OptMATH	🥇39.76	15.51	14.61	2.86	26.96
HealthBench	46.17	43.0	36.9	30.0	56.4
FinanceReasoning	81.59	78.5	78.1	64.3	83.8
Creative Writing V3	🥇85.17	77.57	82.17	59.69	79.09

Ling-flash-2.0 の効率的な要因

Ling-flash-2.0 は、Ling Scaling Laws に基づいて構築され、1/32アクティベーション比MoEアーキテクチャ を使用しています。力任せなスケーリングの代わりに、専門家の粒度、共有専門家の比率からバランスの取れた注意、スマートなルーティング戦略、Multi-Token Prediction、QK-Norm、Partial-RoPE まで、一連のデザイン改良を導入しています。

これらの革新を組み合わせることで、モデルは約40Bの高密度モデルの力を僅か6.1Bのアクティブパラメータで提供し、同等の高密度アーキテクチャに対して7倍の効率性向上を達成します。

SiliconFlow での実際のパフォーマンス

このデモでは、SiliconFlow Playground 内の Ling-flash-2.0 の現実世界でのパフォーマンスを示しています。「スネークゲームの完全なコードを書け」という簡潔なプロンプトを使用して、モデルは迅速に完全な機能の実装を生成し、推論、コーディングの専門知識、現実的な問題解決をリアルタイムでシームレスに統合する能力を示しています。

すぐに始めましょう

1. 探る: Ling-flash-2.0 を SiliconFlow のPlayground で試してみてください。
2. 統合する: OpenAI互換APIをご利用ください。SiliconFlow API ドキュメントで完全なAPI仕様をご覧ください。

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

Ling Flash 2.0 を今すぐ SiliconFlow で試して、スピードの違いを体感してください。

ビジネスまたは販売に関するお問い合わせ →

今すぐDiscordコミュニティに参加する →

最新情報を得るためにXでフォローしてください →

SiliconFlow で利用可能なすべてのモデルを探る →