Ling-mini-2.0 Sekarang di SiliconFlow: Model MoE dengan Performa SOTA & Efisiensi Tinggi

11 Sep 2025

Daftar Isi

TL;DR: Ling-mini-2.0 sekarang tersedia di SiliconFlow — Ant Group inclusionAI's MoE model yang menggabungkan kinerja SOTA dengan efisiensi yang belum pernah ada sebelumnya. Dengan hanya 1.4B parameter yang diaktifkan, ini memberikan kinerja padat 7-8B, kecepatan tinggi 300+ token/s, dan kemampuan pengkodean & matematika yang kompetitif. Sekarang Anda dapat mendapatkan kualitas setara enterprise dengan harga ramah anggaran melalui layanan API kami!

SiliconFlow dengan bangga memperkenalkan Ling-mini-2.0 — sebuah terobosan model bahasa berbasis MoE yang mendefinisikan ulang seberapa efisien model AI dapat menjadi. Dengan 16B total parameter tetapi hanya 1.4B yang diaktifkan per token, model ini mencapai kinerja yang menyamai atau melampaui model yang jauh lebih besar, mencapai kinerja teratas di antara LLM padat sub-10B sekaligus memberikan kecepatan tinggi dan biaya efektif untuk alur kerja Anda.

Dengan API Ling-mini-2.0 dari SiliconFlow, Anda dapat mengharapkan:

Harga Efisien: Ling-mini-2.0 $0.07/M tokens (input) dan $0.29/M tokens (output).
Jendela Konteks Diperpanjang: 131K memungkinkan pengguna menangani tugas-tugas kompleks.
Kemampuan Luar Biasa: Kinerja terdepan dalam matematika dan tugas-tugas penalaran kode.

Apakah Anda membangun asisten pengkodean yang kompleks, aplikasi penalaran matematika, atau fitur AI untuk tujuan umum, API Ling-mini-2.0 dari SiliconFlow memberikan kinerja yang Anda butuhkan dengan sebagian kecil dari biaya dan latensi yang diharapkan.

Mengapa Ling-mini-2.0 Penting

Kebanyakan model bahasa besar menghadapi pertukaran mendasar: penalaran yang kuat memerlukan jumlah parameter yang sangat banyak, yang mengarah pada latensi dan biaya tinggi. Para pengembang sering kesulitan memilih antara model yang lebih kecil dan cepat yang kekurangan kemampuan penalaran canggih dan model yang lebih besar yang memberikan kualitas tetapi menguras anggaran dan memperlambat aplikasi hingga merangkak.

Ling-mini-2.0 memecahkan situasi ini:

Leverage Kinerja Padat Setara 7×

Dipandu oleh Hukum Skala Ling, desain rasio aktivasi 1/32 MoE dari Ling-mini-2.0 mengaktifkan hanya ahli yang relevan. Ini memungkinkan model MoE kecil-aktivasi mencapai lebih dari 7× kinerja padat setara. Dengan kata lain, Ling-mini-2.0 dengan hanya 1.4B parameter yang diaktifkan (non-embedding 789M) dapat memberikan kinerja setara dengan model padat 7-8B.

Generasi Kecepatan Tinggi pada 300+ token/s

Arsitektur sangat jarang memungkinkan generasi 300+ token/s dalam skenario QA sederhana — lebih dari 2x lebih cepat dari model padat 8B yang sebanding. Seiring meningkatnya panjang output, kecepatan relatif dapat melebihi 7x, menjadikannya ideal untuk aplikasi waktu nyata.

Penalaran Umum dan Profesional yang Kuat

Dilatih pada lebih dari 20T token berkualitas tinggi dan ditingkatkan melalui fine-tuning multi-tahap dan pembelajaran penguat, Ling-mini-2.0 unggul dalam tugas penalaran kompleks termasuk pengkodean (LiveCodeBench, CodeForces), matematika (AIME 2025, HMMT 2025), dan penalaran yang intensif pengetahuan (MMLU-Pro, Ujian Terakhir Kemanusiaan).

Dibandingkan dengan model padat sub-10B (contoh, Qwen3-4B-instruct-2507, Qwen3-8B-NoThinking-2504) dan model MoE skala besar (Ernie-4.5-21B-A3B-PT, GPT-OSS-20B/low), Ling-mini-2.0 menunjukkan kemampuan penalaran keseluruhan yang luar biasa:

Benchmark	Ling-Mini-2.0	Qwen3-4B-instruct-2507	Qwen3-8B-NoThinking-2504	Ernie-4.5-21B-A3B-PT	GPT-OSS-20B/low
LiveCodeBench	34.8	31.9	26.1	26.1	46.6
CodeForces	59.5	55.4	28.2	21.7	67.0
AIME 2025	47.0	48.1	23.4	16.1	38.2
HMMT 2025	🥇35.8	29.8	11.5	6.9	21.7
MMLU-Pro	65.1	62.4	52.5	65.6	65.6
Ujian Terakhir Kemanusiaan	🥇6.0	4.6	4.0	5.1	4.7

Skenario Aplikasi Dunia Nyata

Seperti yang ditunjukkan dalam playground SiliconFlow kami di bawah, kecepatan generasi Ling-mini-2.0 bukan hanya tolok ukur teknis — itu mengubah pengalaman pengguna dalam aplikasi dunia nyata.

Prompt: Create a complete Snake game in Python using pygame.

Dengan respons super cepat, kemampuan pengkodean yang kuat, dan penalaran matematika tingkat lanjut, Ling-mini-2.0 membuka kemungkinan baru di seluruh industri di mana kecepatan dan kecerdasan sangat penting:

Asisten Pengkodean Waktu Nyata
- Penyelesaian kode langsung selama pengembangan.
- Saran debug instan tanpa gangguan alur kerja.
- Tinjauan kode interaktif dengan umpan balik langsung.
- Sempurna untuk: IDE, editor kode, alat pemrograman berpasangan.
Platform Pendidikan Interaktif
- Pengajaran matematika langkah-demi-langkah dengan penjelasan instan.
- Sesi tanya jawab waktu nyata untuk bootcamp pemrograman.
- Pemecahan masalah interaktif tanpa penundaan yang menjengkelkan.
- Sempurna untuk: platform EdTech, kursus online, aplikasi pembelajaran.
Dukungan Pelanggan & Chatbot
- Respons instan yang terasa alami dan percakapan.
- Penanganan kueri kompleks tanpa mengorbankan kecepatan.
- Percakapan berbilang giliran yang menjaga konteks dengan efisien.
- Sempurna untuk: layanan pelanggan, dukungan teknis, chatbot perusahaan.

Mulai Segera

1. Jelajahi: Coba Ling-mini-2.0 di playground SiliconFlow.
2. Integrasikan: Gunakan API kompatibel OpenAI kami. Jelajahi spesifikasi API lengkap di dokumentasi API SiliconFlow.

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "inclusionAI/Ling-mini-2.0",    "thinking_budget": 4096,    "top_p": 0.7,    "messages": [        {            "content": "Tell me a story",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

Siap untuk merasakan kecepatan dan kecerdasan Ling-mini-2.0?

Mulailah membangun dengan API kami hari ini dan lihat perbedaan yang dapat dibuat oleh AI yang efisien.

Pertanyaan Bisnis atau Penjualan →

Bergabunglah dengan komunitas Discord kami sekarang →

Ikuti kami di X untuk pembaruan terbaru →

Jelajahi semua model yang tersedia di SiliconFlow →

Sebelumnya