🎉 Hy3-preview tersedia di SiliconFlow. Coba SEKARANG.

Model-model

Produk

Harga

Dokumen

Blog

Tentang

Kontak

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

All

Featured

LLM

Vision

Image

Video

Audio

Serverless

inclusionAI

Text Generation

Ling-flash-2.0

Dirilis pada: 18 Sep 2025

Ling-flash-2.0 adalah model bahasa dari inclusionAI dengan total 100 miliar parameter, di mana 6,1 miliar diaktifkan per token (4,8 miliar non-Embedding). Sebagai bagian dari seri arsitektur Ling 2.0, ini dirancang sebagai Model Mixture-of-Experts (MoE) yang ringan namun kuat. Ini bertujuan untuk memberikan kinerja yang sebanding atau bahkan melampaui model-model padat tingkat 40B dan Model MoE yang lebih besar lainnya, tetapi dengan jumlah parameter aktif yang jauh lebih kecil. Model ini mewakili strategi yang berfokus pada pencapaian performa tinggi dan efisiensi melalui desain arsitektur ekstrem dan metode pelatihan....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.57

/ M Tokens

inclusionAI

Text Generation

Ring-flash-2.0

Dirilis pada: 29 Sep 2025

Ring-flash-2.0 adalah model berpikir berperforma tinggi yang dioptimalkan secara mendalam berdasarkan Ling-flash-2.0-base. Ini adalah Model Mixture-of-Experts (MoE) dengan total 100B parameter, tetapi hanya 6.1B yang diaktifkan per Inference. Model ini memanfaatkan algoritma 'icepop' yang dikembangkan secara independen untuk mengatasi tantangan ketidakstabilan pelatihan dalam pembelajaran penguatan (RL) untuk MoE LLMs, memungkinkan peningkatan berkelanjutan dalam kemampuan penalaran kompleksnya selama siklus pelatihan RL yang diperpanjang. Ring-flash-2.0 menunjukkan terobosan signifikan di berbagai tolok ukur yang menantang, termasuk kompetisi matematika, pembuatan kode, dan penalaran logis. Kinerjanya melampaui model SOTA yang padat di bawah 40B parameter dan menyaingi Model MoE dengan bobot terbuka yang lebih besar dan API model pemikiran berkinerja tinggi tertutup. Lebih mengejutkan lagi, meskipun Ring-flash-2.0 dirancang terutama untuk penalaran kompleks, ia juga menunjukkan kemampuan kuat dalam penulisan kreatif. Berkat arsitekturnya yang efisien, ia mencapai Inference berkecepatan tinggi, secara signifikan mengurangi biaya Inference untuk Model berpikir dalam skenario konkruensi tinggi....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.57