Ling-flash-2.0 Sekarang di SiliconFlow: MoE Model andalan yang Menyediakan Penalaran SOTA dan Efisiensi Tinggi

23 Sep 2025

Daftar Isi

TL;DR: Ling-flash-2.0 sekarang tersedia di SiliconFlow — Model Bahasa MoE unggulan dari Ant Group inclusionAI yang menggabungkan penalaran SOTA dengan efisiensi tingkat lanjut. Dengan 100B total parameter tetapi hanya 6.1B yang diaktifkan, ia memberikan kinerja yang kompetitif dengan Model dense 40B dan jendela konteks 131K. Sempurna untuk penalaran kompleks, pengkodean, dan pengembangan antarmuka — sekarang berdayakan bisnis dan alur kerja Anda dengan biaya yang ramah anggaran melalui layanan API kami.

SiliconFlow dengan bangga memperkenalkan kepada Anda Ling-flash-2.0, Model MoE ketiga di bawah arsitektur Ling 2.0. Membangun kesuksesan Ling-mini-2.0 dan Ring-mini-2.0, rilis ini mencerminkan langkah maju dalam menggabungkan efisiensi dan kemampuan penalaran. Dilatih dengan lebih dari 20T tokens berkualitas tinggi dengan fine-tuning yang diawasi multi-tahap dan pembelajaran penguatan, Ling-flash-2.0 menggabungkan desain MoE tingkat lanjut dengan keserbagunaan dunia nyata — menjadikannya pilihan yang kuat untuk penalaran kompleks, pengkodean, dan aplikasi khusus industri.

Melalui API Ling-flash-2.0 dari SiliconFlow, Anda bisa mengharapkan:

Harga Efektif: Ling-flash-2.0 $0.14/M tokens (input) dan $0.57/M tokens (output).
Desain MoE yang Efisien: Arsitektur MoE dengan 100B total parameter dengan hanya 6.1B yang diaktifkan (4.8B non-embedding).
Jendela Konteks Diperpanjang: Jendela konteks 131K memungkinkan pengguna menangani tugas-tugas kompleks.
Kemampuan Lanjutan: SOTA dalam penalaran, pengkodean, matematika, dan tugas khusus domain seperti keuangan & kesehatan.

Mengapa Ling-flash-2.0 Penting

Ling-flash-2.0 secara konsisten memberikan kinerja yang kuat di seluruh tugas pengetahuan berat, matematika, pengkodean, logika, dan tugas khusus domain seperti keuangan dan kesehatan. Model ini juga membuktikan bahwa sangat kompetitif dalam aplikasi yang lebih terbuka, termasuk penulisan kreatif.

Pentingnya, Ling-flash-2.0 tidak hanya mengungguli Model dense di bawah 40B parameter (Qwen3-32B-Non-Thinking dan Seed-OSS-36B (think budget=0)), tetapi juga tetap kompetitif dengan rekan MoE yang lebih besar seperti Hunyuan-80B-A13B-Instruct dan GPT-OSS-120B (rendah), sambil tetap menjaga kejelasan keuntungan biaya dan efisiensi.

Benchmark	Ling-flash-2.0	Qwen3-32B-Non-Thinking	Seed-OSS-36B-Instruct (think budget=0)	Hunyuan-80B-A13B-Instruct	GPT-OSS-120B (low)
GPQA-Diamond	🥇68.1	56.2	52.0	61.8	63.4
MMLU-PRO	🥇77.1	69.2	73.2	65.0	74.1
AIME 2025	🥇56.6	23.1	15.0	22.6	51.9
Omni-MATH	🥇53.4	33.8	29.7	39.4	42.3
KOR-Bench	68.8	57.0	44.2	47.6	73.1
ARC-Prize	🥇24.6	3.3	4.4	0.1	10.7
LiveCodeBench v6	🥇51.38	31.5	30.7	25.8	42.7
CodeForces-Elo	🥇1600	678	605	683	1520
OptMATH	🥇39.76	15.51	14.61	2.86	26.96
HealthBench	46.17	43.0	36.9	30.0	56.4
FinanceReasoning	81.59	78.5	78.1	64.3	83.8
Creative Writing V3	🥇85.17	77.57	82.17	59.69	79.09

Apa yang Membuat Ling-flash-2.0 Sangat Efisien

Ling-flash-2.0 dibuat berdasarkan Ling Scaling Laws dan menggunakan arsitektur MoE dengan rasio aktivasi 1/32. Alih-alih melakukan scaling secara paksa, model ini memperkenalkan sejumlah penyempurnaan desain — dari granularity expert dan rasio berbagi ahli hingga perhatian terpadu, strategi routing yang lebih cerdas, Multi-Token Prediction, QK-Norm, dan Partial-RoPE.

Bersama-sama, inovasi ini memungkinkan model untuk memberikan kekuatan ~40B model dense dengan hanya 6.1B parameter aktif, mencapai efisiensi 7× dibandingkan dengan arsitektur dense yang setara.

Performa Nyata di SiliconFlow

Demo ini menampilkan kinerja dunia nyata dari Ling-flash-2.0 dalam SiliconFlow Playground. Menggunakan prompt sederhana — "Tulis kode lengkap untuk permainan Snake" — model ini dengan cepat menghasilkan implementasi fungsional sepenuhnya, menunjukkan kemampuannya untuk secara mulus mengintegrasikan penalaran, keahlian pengkodean, dan pemecahan masalah praktis secara real time.

Mulai Sekarang

1. Jelajahi: Coba Ling-flash-2.0 di Playground SiliconFlow.
2. Integrasikan: Gunakan API kami yang kompatibel dengan OpenAI. Jelajahi spesifikasi lengkap API di dokumentasi API SiliconFlow.

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

Coba Ling Flash 2.0 sekarang di SiliconFlow dan rasakan perbedaan yang dibuat oleh kecepatan.

Inkuiri Bisnis atau Penjualan →

Bergabunglah dengan komunitas Discord kami sekarang →

Ikuti kami di X untuk pembaruan terbaru →

Jelajahi semua model yang tersedia di SiliconFlow →

Sebelumnya