
inclusionAI
Text Generation
Ling-flash-2.0
Dirilis pada: 18 Sep 2025
Ling-flash-2.0 adalah model bahasa dari inclusionAI dengan total 100 miliar parameter, di mana 6,1 miliar diaktifkan per token (4,8 miliar non-Embedding). Sebagai bagian dari seri arsitektur Ling 2.0, ini dirancang sebagai Model Mixture-of-Experts (MoE) yang ringan namun kuat. Ini bertujuan untuk memberikan kinerja yang sebanding atau bahkan melampaui model-model padat tingkat 40B dan Model MoE yang lebih besar lainnya, tetapi dengan jumlah parameter aktif yang jauh lebih kecil. Model ini mewakili strategi yang berfokus pada pencapaian performa tinggi dan efisiensi melalui desain arsitektur ekstrem dan metode pelatihan....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

inclusionAI
Text Generation
Ling-mini-2.0
Dirilis pada: 10 Sep 2025
Ling-mini-2.0 adalah model bahasa besar berperforma tinggi yang dibangun di atas arsitektur MoE. Ini memiliki total 16B parameter, tetapi hanya 1.4B yang diaktifkan per token (non-embedding 789M), memungkinkan generasi yang sangat cepat. Berkat desain MoE yang efisien dan data pelatihan berskala besar dan berkualitas tinggi, meskipun hanya memiliki 1.4B parameter yang diaktifkan, Ling-mini-2.0 tetap memberikan kinerja tugas turun-menurun yang kelas atas sebanding dengan LLM padat sub-10B dan bahkan model MoE yang lebih besar....
Total Context:
131K
Max output:
131K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

inclusionAI
Text Generation
Ring-flash-2.0
Dirilis pada: 29 Sep 2025
Ring-flash-2.0 adalah model berpikir berperforma tinggi yang dioptimalkan secara mendalam berdasarkan Ling-flash-2.0-base. Ini adalah Model Mixture-of-Experts (MoE) dengan total 100B parameter, tetapi hanya 6.1B yang diaktifkan per Inference. Model ini memanfaatkan algoritma 'icepop' yang dikembangkan secara independen untuk mengatasi tantangan ketidakstabilan pelatihan dalam pembelajaran penguatan (RL) untuk MoE LLMs, memungkinkan peningkatan berkelanjutan dalam kemampuan penalaran kompleksnya selama siklus pelatihan RL yang diperpanjang. Ring-flash-2.0 menunjukkan terobosan signifikan di berbagai tolok ukur yang menantang, termasuk kompetisi matematika, pembuatan kode, dan penalaran logis. Kinerjanya melampaui model SOTA yang padat di bawah 40B parameter dan menyaingi Model MoE dengan bobot terbuka yang lebih besar dan API model pemikiran berkinerja tinggi tertutup. Lebih mengejutkan lagi, meskipun Ring-flash-2.0 dirancang terutama untuk penalaran kompleks, ia juga menunjukkan kemampuan kuat dalam penulisan kreatif. Berkat arsitekturnya yang efisien, ia mencapai Inference berkecepatan tinggi, secara signifikan mengurangi biaya Inference untuk Model berpikir dalam skenario konkruensi tinggi....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

