State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

Moonshot AI

chat

Kimi-K2.5

Dirilis pada: 30 Jan 2026

Kimi K2.5 adalah model agen multimodal asli open-source yang dibangun melalui pelatihan berkelanjutan pada sekitar 15 triliun kombinasi token visual dan Text di atas Kimi-K2-Base. Dengan arsitektur MoE berparameter 1T (32B aktif) dan panjang konteks 256K, model ini memadukan pemahaman Vision dan bahasa secara mulus dengan kemampuan agenik canggih, mendukung kedua mode instan dan pemikiran, serta paradigma percakapan dan agenik....

Total Context:

262K

Max output:

262K

Input:

$

0.55

/ M Tokens

Output:

$

3.0

/ M Tokens

MiniMaxAI

chat

MiniMax-M2.1

Dirilis pada: 23 Des 2025

MiniMax-M2.1 adalah Model bahasa besar sumber terbuka yang dioptimalkan untuk kemampuan agenik, unggul dalam pengodingan, penggunaan alat, mengikuti instruksi, dan perencanaan jangka panjang. Model ini mendukung pengembangan perangkat lunak multibahasa dan alur kerja multi-tahap yang kompleks, mencapai nilai 74.0 pada SWE-bench Verified dan melampaui Claude Sonnet 4.5 dalam skenario multibahasa...

Total Context:

197K

Max output:

131K

Input:

$

0.29

/ M Tokens

Output:

$

1.2

/ M Tokens

Z.ai

chat

GLM-4.7

Dirilis pada: 23 Des 2025

GLM-4.7 adalah Model unggulan generasi baru dari Zhipu, dengan total 355B parameter dan 32B parameter yang diaktifkan, memberikan peningkatan komprehensif dalam percakapan umum, penalaran, dan kemampuan agen. Respon menjadi lebih ringkas dan alami; penulisan terasa lebih imersif; instruksi panggilan alat diikuti dengan lebih andal; dan polesan front-end dari artefak dan pengkodean agen—bersama dengan efisiensi penyelesaian tugas jangka panjang—telah lebih ditingkatkan....

Total Context:

205K

Max output:

205K

Input:

$

0.42

/ M Tokens

Output:

$

2.2

/ M Tokens

DeepSeek

chat

DeepSeek-V3.2

Dirilis pada: 4 Des 2025

DeepSeek-V3.2 adalah sebuah Model yang mengharmoniskan efisiensi komputasi tinggi dengan keunggulan penalaran dan kinerja agen. Pendekatannya dibangun di atas tiga terobosan teknis utama: DeepSeek Sparse Attention (DSA), sebuah mekanisme perhatian yang efisien yang secara signifikan mengurangi kompleksitas komputasi sambil mempertahankan kinerja Model, yang dioptimalkan secara khusus untuk skenario konteks panjang; sebuah Kerangka Pembelajaran Penguatan yang Dapat Diskalakan, yang memungkinkan kinerja yang sebanding dengan GPT-5 dan kepiawaian penalaran yang setara dengan Gemini-3.0-Pro dalam varian komputasi tinggi; dan sebuah Large-Scale Agentic Task Synthesis Pipeline untuk mengintegrasikan penalaran ke dalam skenario penggunaan alat, meningkatkan kepatuhan dan generalisasi dalam lingkungan interaktif yang kompleks. Model ini telah mencapai kinerja medali emas dalam Olimpiade Matematika Internasional (IMO) 2025 dan Olimpiade Informatika Internasional (IOI)....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.42

/ M Tokens

DeepSeek

chat

DeepSeek-V3.2-Exp

Dirilis pada: 10 Okt 2025

DeepSeek-V3.2-Exp adalah versi eksperimental dari model DeepSeek, dibangun di atas V3.1-Terminus. Ini memperkenalkan DeepSeek Sparse Attention(DSA) untuk pelatihan dan inference yang lebih cepat dan efisien pada konteks yang panjang....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.41

/ M Tokens

Z.ai

chat

GLM-4.6V

Dirilis pada: 8 Des 2025

GLM-4.6V mencapai akurasi SOTA (State-of-the-Art) dalam pemahaman visual di antara model dengan skala parameter yang sama. Untuk pertama kalinya, ini secara asli mengintegrasikan kemampuan Function Call ke dalam arsitektur model visual, menjembatani kesenjangan antara "Visual Perception" dan "Executable Action." Ini menyediakan dasar teknis yang terpadu untuk Agent Multimodal di skenario bisnis dunia nyata. Selain itu, jendela konteks visual telah diperluas menjadi 128k, mendukung pemrosesan aliran video panjang dan analisis multi-Image beresolusi tinggi....

Total Context:

131K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

0.9

/ M Tokens

DeepSeek

chat

DeepSeek-V3.1-Terminus

Dirilis pada: 29 Sep 2025

DeepSeek-V3.1-Terminus adalah versi terbaru yang dibangun di atas kekuatan V3.1 sambil menangani umpan balik pengguna utama. Ini meningkatkan konsistensi bahasa, mengurangi kejadian teks China-Inggris campuran dan karakter abnormal sesekali. Dan juga meningkatkan kinerja Agen Kode & Agen Pencarian yang lebih kuat....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-V3.1

Dirilis pada: 25 Agu 2025

DeepSeek-V3.1 adalah model hibrida yang mendukung mode berfikir dan mode tidak berfikir. Melalui optimalisasi pasca-pelatihan, performa model dalam penggunaan alat dan tugas agen telah meningkat secara signifikan. DeepSeek-V3.1-Think mencapai kualitas jawaban yang sebanding dengan DeepSeek-R1-0528, sambil merespons lebih cepat....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-V3

Dirilis pada: 26 Des 2024

DeepSeek-V3-0324 menunjukkan perbaikan yang signifikan dibandingkan pendahulunya, DeepSeek-V3, dalam beberapa aspek kunci, termasuk peningkatan besar dalam kinerja penalaran, keterampilan pengembangan front-end yang lebih kuat, dan kemampuan penggunaan alat yang lebih cerdas....

Total Context:

164K

Max output:

164K

Input:

$

0.25

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-R1

Dirilis pada: 28 Mei 2025

DeepSeek-R1-0528 adalah model yang ditingkatkan menunjukkan peningkatan signifikan dalam menangani tugas penalaran kompleks, juga menawarkan tingkat halusinasi yang berkurang, dukungan yang ditingkatkan untuk pemanggilan fungsi, dan pengalaman yang lebih baik untuk pengkodean vibe. Ini mencapai kinerja yang sebanding dengan O3 dan Gemini 2.5 Pro....

Total Context:

164K

Max output:

164K

Input:

$

0.5

/ M Tokens

Output:

$

2.18

/ M Tokens

Tongyi-MAI

text-to-image

Z-Image-Turbo

Dirilis pada: 4 Des 2025

$

0.005

/ Image

Nex AGI

chat

DeepSeek-V3.1-Nex-N1

Dirilis pada: 19 Nov 2025

DeepSeek-V3.1-Nex-N1 adalah model bahasa besar yang dikembangkan berdasarkan model open-source terkemuka dan dioptimalkan melalui pelatihan ulang. Optimisasi ini secara signifikan meningkatkan kemampuannya, menghasilkan kinerja luar biasa dalam tugas Agen dan pembangkitan serta pemahaman kode, penggunaan alat, dan permainan peran. Model ini unggul dalam memecah tugas kompleks menjadi rencana multi-langkah dan secara proaktif mengklarifikasi ambiguitas untuk memastikan pelaksanaan yang andal dan akurat....

Total Context:

131K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1.0

/ M Tokens

Black Forest Labs

text-to-image

FLUX.2 [flex]

Dirilis pada: 11 Des 2025

$

0.06

/ Image

Black Forest Labs

text-to-image

FLUX.2 [pro]

Dirilis pada: 11 Des 2025

$

0.03

/ Image

MiniMaxAI

chat

MiniMax-M2

Dirilis pada: 28 Okt 2025

MiniMax-M2 mendefinisikan kembali efisiensi untuk agen. Ini adalah model MoE yang ringkas, cepat, dan hemat biaya (230 miliar total parameter dengan 10 miliar parameter aktif) yang dibangun untuk kinerja elit dalam tugas pengkodean dan napi, sambil mempertahankan kecerdasan umum yang kuat. Dengan hanya 10 miliar parameter yang diaktifkan, MiniMax-M2 memberikan kinerja penggunaan alat dari ujung ke ujung yang canggih seperti yang diharapkan dari Model terdepan saat ini, tetapi dalam bentuk yang disederhanakan yang membuat penerapan dan penskalaan lebih mudah dari sebelumnya....

Total Context:

197K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

1.2

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Instruct

Dirilis pada: 21 Okt 2025

Qwen3-VL adalah model vision-language dalam seri Qwen3, mencapai performa state-of-the-art (SOTA) pada berbagai benchmark vision-language (VL). Model ini mendukung input Image dengan resolusi tinggi hingga level megapiksel dan memiliki kemampuan kuat dalam memahami visual secara umum, OCR multibahasa, pengkaitan visual yang detail, dan dialog visual. Sebagai bagian dari seri Qwen3, model ini mewarisi fondasi bahasa yang kuat, memungkinkannya memahami dan melaksanakan instruksi yang kompleks....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Thinking

Dirilis pada: 21 Okt 2025

Qwen3-VL-Thinking adalah versi dari seri Qwen3-VL yang dioptimalkan khusus untuk tugas penalaran visual yang kompleks. Ini mengintegrasikan "Mode Berpikir", yang memungkinkannya untuk menghasilkan langkah-langkah penalaran perantara yang rinci (Rantai-Pemikiran) sebelum memberikan jawaban akhir. Desain ini secara signifikan meningkatkan kinerja Model pada jawaban pertanyaan visual (VQA) dan tugas-tugas bahasa-vision lain yang memerlukan logika multi-langkah, perencanaan, dan analisis mendalam....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Instruct

Dirilis pada: 15 Okt 2025

Qwen3-VL-8B-Instruct adalah model vision-language dari seri Qwen3, yang menunjukkan kemampuan kuat dalam pemahaman visual umum, dialog yang berpusat pada visual, dan pengenalan Text multibahasa dalam Image....

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Thinking

Dirilis pada: 15 Okt 2025

Qwen3-VL-8B-Thinking adalah model vision-bahasa dari seri Qwen3, dioptimalkan untuk skenario yang memerlukan penalaran kompleks. Dalam mode Thinking ini, model melakukan pemikiran dan penalaran langkah demi langkah sebelum memberikan jawaban akhir....

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Output:

$

2.0

/ M Tokens

Qwen

chat

Qwen3-VL-235B-A22B-Instruct

Dirilis pada: 4 Okt 2025

Qwen3-VL-235B-A22B-Instruct adalah model Vision-bahasa Mixture-of-Experts (MoE) dengan 235 miliar parameter, dengan 22 miliar parameter yang diaktifkan. Ini adalah versi Qwen3-VL-235B-A22B yang disetel untuk instruksi dan selaras untuk aplikasi Chat....

Total Context:

262K

Max output:

262K

Input:

$

0.3

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-235B-A22B-Thinking

Dirilis pada: 4 Okt 2025

Qwen3-VL-235B-A22B-Thinking adalah salah satu model seri Qwen3-VL, edisi Thinking yang ditingkatkan untuk penalaran yang mencapai hasil state-of-the-art (SOTA) di berbagai tolok ukur penalaran Multimodal, unggul dalam STEM, matematika, analisis kausal, dan jawaban logis berbasis bukti. Ini menampilkan arsitektur Mixture-of-Experts (MoE) dengan total 235B parameter dan 22B parameter aktif....

Total Context:

262K

Max output:

262K

Input:

$

0.45

/ M Tokens

Output:

$

3.5

/ M Tokens

Qwen

chat

Qwen3-VL-30B-A3B-Instruct

Dirilis pada: 5 Okt 2025

Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

chat

Qwen3-VL-30B-A3B-Thinking

Dirilis pada: 11 Okt 2025

Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1.0

/ M Tokens

Moonshot AI

chat

Kimi-K2-Thinking

Dirilis pada: 7 Nov 2025

Kimi K2 Thinking adalah versi terbaru dan paling canggih dari model pemikiran open-source. Dimulai dengan Kimi K2, kami membangunnya sebagai agen pemikiran yang bernalar secara bertahap sambil secara dinamis mengaktifkan alat. Ini menetapkan standar baru di Humanity's Last Exam (HLE), BrowseComp, dan tolok ukur lainnya dengan memperbesar kedalaman penalaran multi-langkah secara dramatis dan mempertahankan penggunaan alat yang stabil dalam 200–300 panggilan berurutan. Pada saat yang sama, K2 Thinking adalah model kuantisasi INT4 asli dengan jendela konteks 262k, mencapai pengurangan latensi Inference dan penggunaan memori GPU tanpa kehilangan....

Total Context:

262K

Max output:

262K

Input:

$

0.55

/ M Tokens

Output:

$

2.5

/ M Tokens

Moonshot AI

chat

Kimi-K2-Instruct-0905

Dirilis pada: 8 Sep 2025

Kimi K2-Instruct-0905, model bahasa campuran-para-ahli (MoE) canggih, adalah versi terbaru dan paling mumpuni dari Kimi K2. Fitur Utama meliputi kemampuan pengkodean yang ditingkatkan, khususnya front-end & pemanggilan alat, panjang konteks diperpanjang hingga 256k tokens, dan peningkatan integrasi dengan berbagai kerangka kerja agen....

Total Context:

262K

Max output:

262K

Input:

$

0.4

/ M Tokens

Output:

$

2.0

/ M Tokens

OpenAI

chat

gpt-oss-120b

Dirilis pada: 13 Agu 2025

Seri gpt-oss adalah Model open-weight OpenAI yang dirancang untuk penalaran yang kuat, tugas agentik, dan kasus penggunaan pengembang yang serbaguna. gpt-oss-120b adalah untuk produksi, tujuan umum, kasus penggunaan penalaran tinggi yang cocok untuk GPU 80GB tunggal (seperti NVIDIA H100 atau AMD MI300X)....

Total Context:

131K

Max output:

8K

Input:

$

0.05

/ M Tokens

Output:

$

0.45

/ M Tokens

OpenAI

chat

gpt-oss-20b

Dirilis pada: 13 Agu 2025

Seri gpt-oss adalah model open-weight OpenAI yang dirancang untuk penalaran yang kuat, tugas bersifat agen, dan kasus penggunaan pengembang yang serbaguna. gpt-oss-20b adalah untuk latensi lebih rendah, dan kasus penggunaan lokal atau khusus....

Total Context:

131K

Max output:

8K

Input:

$

0.04

/ M Tokens

Output:

$

0.18

/ M Tokens

Z.ai

chat

GLM-4.6

Dirilis pada: 4 Okt 2025

Dibandingkan dengan GLM-4.5, GLM-4.6 memberikan beberapa peningkatan kunci, termasuk jendela konteks yang lebih panjang yang diperluas hingga 200K tokens, kinerja pengkodean yang unggul, penalaran yang lebih canggih, agen yang lebih mampu, dan penulisan yang lebih halus....

Total Context:

205K

Max output:

205K

Input:

$

0.39

/ M Tokens

Output:

$

1.9

/ M Tokens

Z.ai

chat

GLM-4.5-Air

Dirilis pada: 28 Jul 2025

Seri model GLM-4.5 adalah model dasar yang dirancang untuk agen cerdas. GLM-4.5-Air mengadopsi desain yang lebih kompak dengan total 106 miliar parameter dan 12 miliar parameter aktif. Ini juga merupakan model penalaran hibrida yang menyediakan mode berpikir dan mode non-berpikir....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.86

/ M Tokens

Z.ai

chat

GLM-4.5V

Dirilis pada: 13 Agu 2025

Sebagai bagian dari keluarga model GLM-V, GLM-4.5V didasarkan pada model dasar ZhipuAI, GLM-4.5-Air, mencapai kinerja SOTA pada tugas-tugas seperti Image, Video, dan pemahaman dokumen, serta operasi agen GUI....

Total Context:

66K

Max output:

66K

Input:

$

0.14

/ M Tokens

Output:

$

0.86

/ M Tokens

Qwen

image-to-video

Wan2.2-I2V-A14B

Dirilis pada: 13 Agu 2025

$

0.29

/ Video

Qwen

text-to-video

Wan2.2-T2V-A14B

Dirilis pada: 13 Agu 2025

$

0.29

/ Video

inclusionAI

chat

Ling-flash-2.0

Dirilis pada: 18 Sep 2025

Ling-flash-2.0 adalah model bahasa dari inclusionAI dengan total 100 miliar parameter, di mana 6,1 miliar diaktifkan per token (4,8 miliar non-Embedding). Sebagai bagian dari seri arsitektur Ling 2.0, ini dirancang sebagai Model Mixture-of-Experts (MoE) yang ringan namun kuat. Ini bertujuan untuk memberikan kinerja yang sebanding atau bahkan melampaui model-model padat tingkat 40B dan Model MoE yang lebih besar lainnya, tetapi dengan jumlah parameter aktif yang jauh lebih kecil. Model ini mewakili strategi yang berfokus pada pencapaian performa tinggi dan efisiensi melalui desain arsitektur ekstrem dan metode pelatihan....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

inclusionAI

chat

Ling-mini-2.0

Dirilis pada: 10 Sep 2025

Ling-mini-2.0 adalah model bahasa besar berperforma tinggi yang dibangun di atas arsitektur MoE. Ini memiliki total 16B parameter, tetapi hanya 1.4B yang diaktifkan per token (non-embedding 789M), memungkinkan generasi yang sangat cepat. Berkat desain MoE yang efisien dan data pelatihan berskala besar dan berkualitas tinggi, meskipun hanya memiliki 1.4B parameter yang diaktifkan, Ling-mini-2.0 tetap memberikan kinerja tugas turun-menurun yang kelas atas sebanding dengan LLM padat sub-10B dan bahkan model MoE yang lebih besar....

Total Context:

131K

Max output:

131K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

inclusionAI

chat

Ring-flash-2.0

Dirilis pada: 29 Sep 2025

Ring-flash-2.0 adalah model berpikir berperforma tinggi yang dioptimalkan secara mendalam berdasarkan Ling-flash-2.0-base. Ini adalah Model Mixture-of-Experts (MoE) dengan total 100B parameter, tetapi hanya 6.1B yang diaktifkan per Inference. Model ini memanfaatkan algoritma 'icepop' yang dikembangkan secara independen untuk mengatasi tantangan ketidakstabilan pelatihan dalam pembelajaran penguatan (RL) untuk MoE LLMs, memungkinkan peningkatan berkelanjutan dalam kemampuan penalaran kompleksnya selama siklus pelatihan RL yang diperpanjang. Ring-flash-2.0 menunjukkan terobosan signifikan di berbagai tolok ukur yang menantang, termasuk kompetisi matematika, pembuatan kode, dan penalaran logis. Kinerjanya melampaui model SOTA yang padat di bawah 40B parameter dan menyaingi Model MoE dengan bobot terbuka yang lebih besar dan API model pemikiran berkinerja tinggi tertutup. Lebih mengejutkan lagi, meskipun Ring-flash-2.0 dirancang terutama untuk penalaran kompleks, ia juga menunjukkan kemampuan kuat dalam penulisan kreatif. Berkat arsitekturnya yang efisien, ia mencapai Inference berkecepatan tinggi, secara signifikan mengurangi biaya Inference untuk Model berpikir dalam skenario konkruensi tinggi....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Tencent

chat

Hunyuan-MT-7B

Dirilis pada: 18 Sep 2025

Model Terjemahan Hunyuan terdiri dari model terjemahan, Hunyuan-MT-7B, dan model ensemble, Hunyuan-MT-Chimera. Hunyuan-MT-7B adalah model terjemahan ringan dengan 7 miliar parameter yang digunakan untuk menerjemahkan Text sumber ke dalam bahasa target. Model ini mendukung terjemahan timbal balik di antara 33 bahasa, termasuk lima bahasa etnis minoritas di China. Dalam kompetisi terjemahan mesin WMT25, Hunyuan-MT-7B meraih tempat pertama di 30 dari 31 kategori bahasa yang diikutinya, menunjukkan kemampuan terjemahan yang luar biasa. Untuk tugas terjemahan, Tencent Hunyuan mengusulkan kerangka pelatihan komprehensif yang mencakup pelatihan awal, Fine-tuning terawasi, peningkatan terjemahan, dan perbaikan ensemble, mencapai kinerja terkini di antara model skala serupa. Model ini efisien secara komputasi dan mudah diterapkan, membuatnya cocok untuk berbagai skenario aplikasi....

Total Context:

33K

Max output:

33K

Input:

$

0.0

/ M Tokens

Output:

$

0.0

/ M Tokens

Qwen

chat

Qwen3-Next-80B-A3B-Instruct

Dirilis pada: 18 Sep 2025

Qwen3-Next-80B-A3B-Instruct adalah model fondasi generasi berikutnya yang dirilis oleh tim Qwen dari Alibaba. Ini dibangun di atas arsitektur Qwen3-Next baru, yang dirancang untuk efisiensi pelatihan dan inference yang optimal. Model ini memasukkan fitur inovatif seperti mekanisme Hybrid Attention (Gated DeltaNet dan Gated Attention), struktur High-Sparsity Mixture-of-Experts (MoE), dan berbagai optimisasi stabilitas. Sebagai model sparse dengan 80 miliar parameter, model ini hanya mengaktifkan sekitar 3 miliar parameter per token selama inference, yang secara signifikan mengurangi biaya komputasi dan memberikan throughput lebih dari 10 kali lipat lebih tinggi daripada model Qwen3-32B untuk tugas konteks panjang yang melebihi 32K token. Ini adalah versi yang disetel untuk instruksi, dioptimalkan untuk tugas-tugas umum dan tidak mendukung mode 'pemikiran'. Dalam hal kinerja, model ini dapat dibandingkan dengan model unggulan Qwen, Qwen3-235B, pada beberapa tolok ukur, menunjukkan keunggulan signifikan dalam skenario konteks ultra-panjang....

Total Context:

262K

Max output:

262K

Input:

$

0.14

/ M Tokens

Output:

$

1.4

/ M Tokens

Qwen

chat

Qwen3-Next-80B-A3B-Thinking

Dirilis pada: 25 Sep 2025

Qwen3-Next-80B-A3B-Thinking adalah model foundation generasi berikutnya dari tim Qwen Alibaba, yang dirancang khusus untuk tugas-tugas penalaran kompleks. Ini dibangun di atas arsitektur Qwen3-Next yang inovatif, yang menggabungkan mekanisme Perhatian Hibrid (Gated DeltaNet dan Gated Attention) dengan struktur High-Sparsity Mixture-of-Experts (MoE) untuk mencapai efisiensi pelatihan dan Inferensi akhir. Sebagai model jarang dengan 80 miliar parameter, ini hanya mengaktifkan sekitar 3 miliar parameter selama Inferensi, secara signifikan mengurangi biaya komputasi dan memberikan throughput lebih dari 10 kali lipat lebih tinggi dibandingkan dengan model Qwen3-32B pada tugas konteks panjang yang melebihi 32K tokens. Versi 'Thinking' ini dioptimalkan untuk masalah multi-langkah yang menuntut seperti pembuktian matematika, sintesis kode, analisis logis, dan perencanaan agentik, dan ini mengOutput jejak 'thinking' terstruktur secara default. Dalam hal performa, ini melampaui model yang lebih mahal seperti Qwen3-32B-Thinking dan telah mengungguli Gemini-2.5-Flash-Thinking pada berbagai tolok ukur....

Total Context:

262K

Max output:

262K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

chat

Qwen3-Omni-30B-A3B-Captioner

Dirilis pada: 4 Okt 2025

Qwen3-Omni-30B-A3B-Captioner adalah Model Bahasa-Visi (VLM) dari tim Qwen Alibaba, bagian dari seri Qwen3. Ini dirancang khusus untuk menghasilkan keterangan gambar yang berkualitas tinggi, detail, dan akurat. Berdasarkan arsitektur Mixture of Experts (MoE) dengan total 30B parameter, model ini dapat memahami konten Image secara mendalam dan menerjemahkannya menjadi Text bahasa alami yang kaya....

Total Context:

66K

Max output:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.4

/ M Tokens

Qwen

chat

Qwen3-Omni-30B-A3B-Instruct

Dirilis pada: 4 Okt 2025

Qwen3-Omni-30B-A3B-Instruct adalah anggota dari seri terbaru Qwen3 dari tim Qwen Alibaba. Ini adalah model Mixture of Experts (MoE) dengan total 30 miliar parameter dan 3 miliar parameter aktif, yang secara efektif mengurangi biaya inference sambil mempertahankan kinerja yang kuat. Model ini dilatih pada data multibahasa, multi-sumber, dan berkualitas tinggi, menunjukkan kinerja yang sangat baik dalam kemampuan dasar seperti dialog multibahasa, serta dalam pengkodean dan matematika....

Total Context:

66K

Max output:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.4

/ M Tokens

Qwen

chat

Qwen3-Omni-30B-A3B-Thinking

Dirilis pada: 4 Okt 2025

Qwen3-Omni-30B-A3B-Thinking adalah komponen utama "Thinker" dalam arsitektur "Thinker-Talker" model omni-modal Qwen3-Omni. Ini dirancang khusus untuk memproses input multimodal, termasuk Text, Audio, Image, dan Video, dan untuk menjalankan penalaran rantai-pemikiran yang kompleks. Sebagai otak penalaran dari sistem, Model ini menyatukan semua Input ke dalam ruang representasional umum untuk pemahaman dan analisis, tetapi Output-nya hanya Text. Desain ini memungkinkannya unggul dalam menyelesaikan masalah kompleks yang membutuhkan pemikiran mendalam dan pemahaman lintas-modal, seperti masalah matematika yang disajikan dalam Image, menjadikannya kunci untuk kemampuan kognitif yang kuat dari seluruh arsitektur Qwen3-Omni....

Total Context:

66K

Max output:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.4

/ M Tokens

Qwen

text-to-image

Qwen-Image

Dirilis pada: 15 Sep 2025

$

0.02

/ Image

Qwen

image-to-image

Qwen-Image-Edit

Dirilis pada: 18 Sep 2025

$

0.04

/ Image

Qwen

chat

Qwen3-Coder-480B-A35B-Instruct

Dirilis pada: 31 Jul 2025

Qwen3-Coder-480B-A35B-Instruct adalah Model kode agen yang paling canggih yang dirilis oleh Alibaba hingga saat ini. Ini adalah Model Mixture-of-Experts (MoE) dengan total 480 miliar parameter dan 35 miliar parameter aktif, menyeimbangkan efisiensi dan kinerja. Model ini secara native mendukung panjang konteks token 256K (sekitar 262.144), yang dapat diperpanjang hingga 1 juta token menggunakan metode ekstrapolasi seperti YaRN, memungkinkan untuk menangani basis kode dalam skala repositori dan tugas pemrograman yang kompleks. Qwen3-Coder dirancang khusus untuk alur kerja pengkodean agen, di mana ia tidak hanya menghasilkan kode tetapi juga berinteraksi secara otomatis dengan alat dan lingkungan pengembang untuk memecahkan masalah yang kompleks. Ini telah mencapai hasil terkini di antara Model terbuka pada berbagai tolok ukur pengkodean dan agen, dengan kinerja sebanding dengan Model terkemuka seperti Claude Sonnet 4. Selain Model, Alibaba juga telah membuka kode Qwen Code, alat baris perintah yang dirancang untuk sepenuhnya melepaskan kemampuan pengkodean agenik yang kuat...

Total Context:

262K

Max output:

262K

Input:

$

0.25

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

chat

Qwen3-Coder-30B-A3B-Instruct

Dirilis pada: 1 Agu 2025

Qwen3-Coder-30B-A3B-Instruct adalah model kode dari seri Qwen3 yang dikembangkan oleh tim Qwen dari Alibaba. Sebagai model yang disederhanakan dan dioptimalkan, ini mempertahankan kinerja dan efisiensi yang mengesankan sambil berfokus pada peningkatan kemampuan pengkodean. Ini menunjukkan keunggulan kinerja yang signifikan di antara model open-source pada tugas-tugas kompleks seperti Pengkodean Agen, Penggunaan Browser Agen, dan tugas pengkodean mendasar lainnya. Model ini secara native mendukung konteks panjang 256K tokens, yang dapat diperluas hingga 1M tokens, memungkinkan pemahaman dan pemrosesan skala repositori yang lebih baik. Selain itu, ini menyediakan dukungan pengkodean agen yang kuat untuk platform seperti Qwen Code dan CLINE, menampilkan format panggilan fungsi yang dirancang khusus....

Total Context:

262K

Max output:

262K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

chat

Qwen3-30B-A3B-Instruct-2507

Dirilis pada: 30 Jul 2025

Qwen3-30B-A3B-Instruct-2507 adalah versi terbaru dari mode non-berpikir Qwen3-30B-A3B. Ini adalah model Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter yang diaktifkan. Versi ini menampilkan peningkatan kunci, termasuk peningkatan signifikan dalam kemampuan umum seperti mengikuti instruksi, penalaran logis, pemahaman text, matematika, sains, pengkodean, dan penggunaan alat. Ini juga menunjukkan peningkatan substansial dalam cakupan pengetahuan jangka panjang di berbagai bahasa dan menawarkan penyelarasan yang jauh lebih baik dengan preferensi pengguna dalam tugas subjektif dan terbuka, memungkinkan respons yang lebih bermanfaat dan generasi text berkualitas tinggi. Selain itu, kemampuannya dalam pemahaman konteks panjang telah ditingkatkan menjadi 256K. Model ini hanya mendukung mode non-berpikir dan tidak menghasilkan blok `<think></think>` dalam output-nya....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

chat

Qwen3-30B-A3B-Thinking-2507

Dirilis pada: 31 Jul 2025

Qwen3-30B-A3B-Thinking-2507 adalah model berpikir terbaru dalam seri Qwen3, dirilis oleh tim Qwen dari Alibaba. Sebagai model Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter aktif, ia difokuskan untuk meningkatkan kemampuan dalam tugas-tugas kompleks. Model ini menunjukkan peningkatan kinerja yang signifikan pada tugas penalaran, termasuk penalaran logis, matematika, sains, pengkodean, dan tolok ukur akademik yang biasanya memerlukan keahlian manusia. Ini juga menunjukkan kemampuan umum yang jauh lebih baik, seperti mengikuti instruksi, penggunaan alat, Text generation, dan keselarasan dengan preferensi manusia. Model ini secara native mendukung kemampuan pemahaman konteks panjang 256K, yang dapat diperpanjang hingga 1 juta token. Versi ini secara khusus dirancang untuk ‘mode berpikir’ untuk menangani masalah yang sangat kompleks melalui penalaran langkah-demi-langkah dan juga unggul dalam kemampuan agentik....

Total Context:

262K

Max output:

131K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

chat

Qwen3-235B-A22B-Instruct-2507

Dirilis pada: 23 Jul 2025

Qwen3-235B-A22B-Instruct-2507 adalah model bahasa besar Mixture-of-Experts (MoE) unggulan dari seri Qwen3, yang dikembangkan oleh tim Qwen dari Alibaba Cloud. Model ini memiliki total 235 miliar parameter, dengan 22 miliar yang diaktifkan per forward pass. Ini dirilis sebagai versi terbaru dari mode non-berpikir Qwen3-235B-A22B, dengan peningkatan signifikan dalam kemampuan umum seperti mengikuti instruksi, penalaran logis, pemahaman Text, matematika, sains, pemrograman, dan penggunaan alat. Selain itu, model ini memberikan peningkatan besar dalam cakupan pengetahuan long-tail di berbagai bahasa dan menunjukkan perbaikan yang signifikan dalam keselarasan dengan preferensi pengguna dalam tugas yang subjektif dan terbuka, memungkinkan tanggapan yang lebih membantu dan penghasilan Text berkualitas tinggi. Yang penting, model ini mendukung native window konteks 256K (262,144 tokens) yang luas, yang meningkatkan kemampuannya untuk pemahaman konteks panjang. Versi ini secara eksklusif mendukung mode non-berpikir dan tidak menghasilkan blok <think>, yang bertujuan untuk memberikan tanggapan yang lebih efisien dan tepat untuk tugas seperti tanya jawab langsung dan pengambilan pengetahuan....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

chat

Qwen3-235B-A22B-Thinking-2507

Dirilis pada: 28 Jul 2025

Qwen3-235B-A22B-Thinking-2507 adalah anggota dari seri Model bahasa besar Qwen3 yang dikembangkan oleh tim Qwen Alibaba, yang mengkhususkan diri dalam tugas-tugas penalaran yang sangat kompleks. Model ini dibangun di atas arsitektur Mixture-of-Experts (MoE), dengan total 235 miliar parameter dan sekitar 22 miliar parameter teraktivasi per token, yang meningkatkan efisiensi komputasi sambil mempertahankan kinerja yang kuat. Sebagai Model 'thinking' yang berdedikasi, ia menunjukkan peningkatan kinerja yang signifikan pada tugas-tugas yang membutuhkan keahlian manusia, seperti penalaran logis, matematika, sains, pengkodean, dan tolok ukur akademis, mencapai hasil mutakhir di antara model thinking sumber terbuka. Selain itu, Model ini memiliki kemampuan umum yang ditingkatkan seperti mengikuti instruksi, penggunaan alat, dan generasi Text, dan mendukung secara native kemampuan pemahaman konteks panjang 256K, menjadikannya ideal untuk skenario-skenario yang memerlukan penalaran mendalam dan pemrosesan dokumen yang panjang....

Total Context:

262K

Max output:

262K

Input:

$

0.13

/ M Tokens

Output:

$

0.6

/ M Tokens

StepFun

chat

step3

Dirilis pada: 6 Agu 2025

Step3 adalah model penalaran Multimodal mutakhir dari StepFun. Itu dibangun pada arsitektur Mixture-of-Experts (MoE) dengan total 321B parameter dan 38B parameter aktif. Model ini dirancang end-to-end untuk meminimalkan biaya decoding sambil memberikan performa kelas atas dalam penalaran vision-language. Melalui desain bersama Multi-Matrix Factorization Attention (MFA) dan Attention-FFN Disaggregation (AFD), Step3 mempertahankan efisiensi yang sangat baik di kedua akselerator unggulan dan kelas bawah. Selama prapelatihan, Step3 memproses lebih dari 20T text tokens dan 4T image-text mixed tokens, melintasi lebih dari sepuluh bahasa. Model ini telah mencapai performa state-of-the-art untuk model open-source di berbagai tolok ukur, termasuk matematika, kode, dan multimodalitas....

Total Context:

66K

Max output:

66K

Input:

$

0.57

/ M Tokens

Output:

$

1.42

/ M Tokens

ByteDance

chat

Seed-OSS-36B-Instruct

Dirilis pada: 4 Sep 2025

Seed-OSS adalah serangkaian model bahasa besar sumber terbuka yang dikembangkan oleh tim ByteDance Seed, dirancang untuk pemrosesan konteks panjang yang kuat, penalaran, kemampuan agen, dan kemampuan serba guna. Dalam seri ini, Seed-OSS-36B-Instruct adalah model yang telah disetel instruksi dengan 36 miliar parameter yang secara native mendukung panjang konteks ultra panjang, memungkinkan untuk memproses dokumen besar atau basis kode kompleks dalam satu kali pemrosesan. Model ini dioptimalkan secara khusus untuk penalaran, pengembangan kode, dan tugas agen (seperti penggunaan alat), sambil mempertahankan kemampuan serba guna yang seimbang dan sangat baik. Fitur utama dari model ini adalah fungsi 'Anggaran Pemikiran', yang memungkinkan pengguna untuk menyesuaikan panjang penalaran secara fleksibel sesuai kebutuhan, sehingga secara efektif meningkatkan efisiensi Inference dalam aplikasi praktis....

Total Context:

262K

Max output:

262K

Input:

$

0.21

/ M Tokens

Output:

$

0.57

/ M Tokens

Z.ai

chat

GLM-4.1V-9B-Thinking

Dirilis pada: 4 Jul 2025

GLM-4.1V-9B-Thinking adalah Vision-Language Model (VLM) open-source yang dirilis bersama oleh Zhipu AI dan lab KEG Universitas Tsinghua, dirancang untuk memajukan penalaran multimodal umum. Dibangun berdasarkan model dasar GLM-4-9B-0414, ini memperkenalkan 'paradigma berpikir' dan memanfaatkan Pembelajaran Penguatan dengan Pengambilan Sampel Kurikulum (RLCS) untuk secara signifikan meningkatkan kemampuannya dalam tugas kompleks. Sebagai model parameter 9B, ini mencapai kinerja mutakhir di antara model dengan ukuran serupa, dan kinerjanya sebanding atau bahkan melampaui Qwen-2.5-VL-72B dengan parameter lebih besar 72B pada 18 tolok ukur berbeda. Model ini unggul dalam berbagai tugas yang beragam, termasuk pemecahan masalah STEM, pemahaman video, dan pemahaman dokumen panjang, serta dapat menangani gambar dengan resolusi hingga 4K dan rasio aspek sembarang....

Total Context:

66K

Max output:

66K

Input:

$

0.035

/ M Tokens

Output:

$

0.14

/ M Tokens

BAIDU

chat

ERNIE-4.5-300B-A47B

Dirilis pada: 2 Jul 2025

ERNIE-4.5-300B-A47B adalah model bahasa besar yang dikembangkan oleh Baidu berdasarkan arsitektur Mixture-of-Experts (MoE). Model ini memiliki total 300 miliar parameter, tetapi hanya mengaktifkan 47 miliar parameter per token selama inference, sehingga menyeimbangkan kinerja yang kuat dengan efisiensi komputasi. Sebagai salah satu model inti dalam seri ERNIE 4.5, model ini dilatih pada kerangka kerja pembelajaran mendalam PaddlePaddle dan menunjukkan kemampuan luar biasa dalam tugas seperti pemahaman Text, pembangkitan, penalaran, dan pengkodean. Model ini memanfaatkan metode pra-pelatihan MoE heterogen Multimodal yang inovatif, yang secara efektif meningkatkan kemampuan keseluruhan melalui pelatihan bersama pada modalitas Text dan visual, menunjukkan hasil yang menonjol dalam mengikuti instruksi dan memori pengetahuan dunia. Baidu telah merilis sumber terbuka Model ini bersama dengan yang lain dalam seri untuk mempromosikan penelitian dan penerapan teknologi AI....

Total Context:

131K

Max output:

131K

Input:

$

0.28

/ M Tokens

Output:

$

1.1

/ M Tokens

Tencent

chat

Hunyuan-A13B-Instruct

Dirilis pada: 30 Jun 2025

Hunyuan-A13B-Instruct mengaktifkan hanya 13 B dari 80 B parameternya, namun sebanding dengan LLM yang jauh lebih besar pada tolok ukur arus utama. Ini menawarkan penalaran hibrida: mode “cepat” latensi rendah atau mode “lambat” presisi tinggi, dapat dialihkan per panggilan. Konteks 256 K-token asli memungkinkan untuk mencerna dokumen sepanjang buku tanpa degradasi. Keterampilan agen disesuaikan untuk kepemimpinan BFCL-v3, τ-Bench, dan C3-Bench, menjadikannya tulang punggung asisten otonom yang sangat baik. Grouped Query Attention plus kuantisasi multi-format memberikan inferensi yang ringan-memori, efisien-GPU untuk penerapan dunia nyata, dengan dukungan multibahasa bawaan dan penyelarasan keselamatan yang kuat untuk aplikasi kelas perusahaan....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Moonshot AI

chat

Kimi-K2-Instruct

Dirilis pada: 13 Jul 2025

Kimi K2 adalah model dasar Mixture-of-Experts (MoE) dengan kemampuan pengkodean dan agen yang luar biasa, menampilkan 1 triliun total parameter dan 32 miliar parameter yang diaktifkan. Dalam evaluasi tolok ukur yang mencakup penalaran pengetahuan umum, pemrograman, matematika, dan tugas terkait agen, model K2 melampaui model sumber terbuka terkemuka lainnya....

Total Context:

131K

Max output:

131K

Input:

$

0.58

/ M Tokens

Output:

$

2.29

/ M Tokens

Moonshot AI

chat

Kimi-Dev-72B

Dirilis pada: 19 Jun 2025

Kimi-Dev-72B adalah model bahasa pemrograman besar open-source baru yang mencapai 60,4% pada SWE-bench Verified, menetapkan hasil mutakhir di antara model open-source. Dioptimalkan melalui pembelajaran penguatan skala besar, ia secara mandiri memperbaiki basis kode nyata di Docker dan mendapatkan penghargaan hanya ketika seluruh rangkaian pengujian berhasil. Ini memastikan model memberikan solusi yang benar, tangguh, dan praktis sesuai dengan standar rekayasa perangkat lunak dunia nyata....

Total Context:

131K

Max output:

131K

Input:

$

0.29

/ M Tokens

Output:

$

1.15

/ M Tokens

MiniMaxAI

chat

MiniMax-M1-80k

Dirilis pada: 17 Jun 2025

MiniMax-M1 adalah model penalaran hibrida perhatian skala besar dan bobot terbuka dengan 456 B parameter dan 45,9 B diaktifkan per token. Ini secara bawaan mendukung konteks 1 M-token, perhatian kilat memungkinkan penghematan 75% FLOPs vs DeepSeek R1 pada 100 K tokens, dan memanfaatkan arsitektur MoE. Pelatihan RL efisien dengan CISPO dan desain hibrida menghasilkan kinerja terkini pada penalaran input panjang dan tugas rekayasa perangkat lunak dunia nyata....

Total Context:

131K

Max output:

131K

Input:

$

0.55

/ M Tokens

Output:

$

2.2

/ M Tokens

Qwen

chat

Qwen3-30B-A3B

Dirilis pada: 30 Apr 2025

Qwen3-30B-A3B adalah model bahasa besar terbaru dalam seri Qwen, menampilkan arsitektur Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter teraktivasi. Model ini secara unik mendukung perpindahan tanpa hambatan antara mode berpikir (untuk penalaran logis kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog tujuan umum yang efisien). Ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, keselarasan preferensi manusia yang lebih unggul dalam penulisan kreatif, bermain peran, dan dialog multi-putaran. Model ini unggul dalam kemampuan agen untuk integrasi yang tepat dengan alat eksternal dan mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat serta kemampuan penerjemahan....

Total Context:

131K

Max output:

131K

Input:

$

0.09

/ M Tokens

Output:

$

0.45

/ M Tokens

Qwen

chat

Qwen3-32B

Dirilis pada: 30 Apr 2025

Qwen3-32B adalah model bahasa besar terbaru dalam seri Qwen dengan 32.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog yang efisien dan tujuan umum). Ini menunjukkan kemampuan penalaran yang sangat meningkat, melampaui model QwQ dan Qwen2.5 instruct sebelumnya dalam matematika, pembuatan kode, dan penalaran logis nalar sehat. Model ini unggul dalam penjajaran preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-giliran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan penerjemahan....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

chat

Qwen3-14B

Dirilis pada: 30 Apr 2025

Qwen3-14B adalah model bahasa besar terbaru dalam seri Qwen dengan 14.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog tujuan umum yang efisien). Ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis berdasarkan akal sehat. Model ini unggul dalam penyelarasan preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-putaran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan terjemahan....

Total Context:

131K

Max output:

131K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

chat

Qwen3-8B

Dirilis pada: 30 Apr 2025

Qwen3-8B adalah model bahasa besar terbaru dalam seri Qwen dengan 8,2 miliar parameter. Model ini secara unik mendukung perpindahan mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk percakapan umum yang efisien dan multi-guna). Model ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis umum. Model ini unggul dalam kesesuaian preferensi manusia untuk penulisan kreatif, permainan peran, dan dialog multi-putaran. Selain itu, model ini mendukung lebih dari 100 bahasa dan dialek dengan kemampuan mengikuti instruksi multibahasa yang kuat dan kemampuan terjemahan....

Total Context:

131K

Max output:

131K

Input:

$

0.06

/ M Tokens

Output:

$

0.06

/ M Tokens

Qwen

reranker

Qwen3-Reranker-8B

Dirilis pada: 6 Jun 2025

Qwen3-Reranker-8B adalah model penyusunan ulang teks dengan 8 miliar parameter dari seri Qwen3. Model ini dirancang untuk menyempurnakan dan meningkatkan kualitas hasil pencarian dengan mengatur ulang dokumen secara akurat berdasarkan relevansinya terhadap sebuah kueri. Dibangun di atas model dasar Qwen3 yang kuat, model ini unggul dalam memahami teks panjang dengan panjang konteks 32k dan mendukung lebih dari 100 bahasa. Model Qwen3-Reranker-8B merupakan bagian dari seri fleksibel yang menawarkan kinerja mutakhir dalam berbagai skenario pengambilan teks dan kode....

$

0.04

/ M Tokens

Qwen

embedding

Qwen3-Embedding-8B

Dirilis pada: 6 Jun 2025

Qwen3-Embedding-8B adalah model kepemilikan terbaru dalam seri Qwen3 Embedding, dirancang khusus untuk tugas penanaman dan perankingan Text. Dibangun di atas model dasar padat dari seri Qwen3, model 8B parameter ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embedding dengan dimensi hingga 4096. Model ini mewarisi kemampuan multibahasa yang luar biasa yang mendukung lebih dari 100 bahasa, bersama dengan pemahaman dan keterampilan penalaran teks panjang. Model ini menempati peringkat No.1 di papan peringkat multibahasa MTEB (per 5 Juni 2025, skor 70.58) dan menunjukkan kinerja mutakhir dalam berbagai tugas termasuk pengambilan Text, pengambilan kode, klasifikasi Text, clustering, dan penambangan bitext. Model ini menawarkan dimensi vektor yang fleksibel (32 hingga 4096) dan kemampuan sadar instruksi untuk peningkatan kinerja dalam tugas dan skenario tertentu....

Input:

$

0.04

/ M Tokens

Qwen

reranker

Qwen3-Reranker-4B

Dirilis pada: 6 Jun 2025

Qwen3-Reranker-4B adalah model reranking Text yang kuat dari seri Qwen3, menampilkan 4 miliar parameter. Ini dirancang untuk secara signifikan meningkatkan relevansi hasil pencarian dengan mengatur ulang daftar awal dokumen berdasarkan kueri. Model ini mewarisi kekuatan inti dari fondasi Qwen3-nya, termasuk pemahaman luar biasa terhadap Text panjang (hingga konteks sepanjang 32 ribu) dan kemampuan tangguh di lebih dari 100 bahasa. Menurut tolok ukur, model Qwen3-Reranker-4B menunjukkan kinerja superior dalam berbagai evaluasi pengambilan Text dan kode....

$

0.02

/ M Tokens

Qwen

embedding

Qwen3-Embedding-4B

Dirilis pada: 6 Jun 2025

Qwen3-Embedding-4B adalah model kepemilikan terbaru dalam seri Qwen3 Embedding, yang dirancang khusus untuk tugas embedding teks dan peringkat. Dibangun di atas model dasar yang padat dari seri Qwen3, model parameter 4B ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embedding dengan dimensi hingga 2560. Model ini mewarisi kemampuan multibahasa yang luar biasa yang mendukung lebih dari 100 bahasa, serta pemahaman teks panjang dan keterampilan penalaran. Model ini mencapai kinerja yang sangat baik pada papan peringkat multibahasa MTEB (skor 69,45) dan menunjukkan hasil luar biasa di berbagai tugas termasuk pengambilan kembali teks, pengambilan kembali kode, klasifikasi teks, pengelompokan, dan penambangan bitext. Model ini menawarkan dimensi vektor yang fleksibel (32 hingga 2560) dan kemampuan sadar instruksi untuk peningkatan kinerja dalam tugas dan skenario tertentu, memberikan keseimbangan optimal antara efisiensi dan efektivitas...

Input:

$

0.02

/ M Tokens

Qwen

reranker

Qwen3-Reranker-0.6B

Dirilis pada: 6 Jun 2025

Qwen3-Reranker-0.6B adalah model pemeringkatan RAG dari seri Qwen3. Model ini dirancang khusus untuk memperbaiki hasil dari sistem pemulihan awal dengan mengatur ulang dokumen berdasarkan relevansinya dengan kueri tertentu. Dengan 0.6 miliar parameter dan panjang konteks 32k, Model ini memanfaatkan dukungan multibahasa yang kuat (mendukung lebih dari 100 bahasa), pemahaman RAG yang panjang, dan kemampuan penalaran dari fondasi Qwen3-nya. Hasil evaluasi menunjukkan bahwa Qwen3-Reranker-0.6B mencapai kinerja yang kuat di berbagai tolok ukur pengambilan RAG, termasuk MTEB-R, CMTEB-R, dan MLDR....

$

0.01

/ M Tokens

Qwen

embedding

Qwen3-Embedding-0.6B

Dirilis pada: 6 Jun 2025

Qwen3-Embedding-0.6B adalah model eksklusif terbaru dalam seri Qwen3 Embedding, yang dirancang khusus untuk tugas penyematan dan peringkat text. Dibangun di atas model dasar padat dari seri Qwen3, model parameter 0.6B ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embeddings dengan dimensi hingga 1024. Model ini mewarisi kemampuan multibahasa yang luar biasa mendukung lebih dari 100 bahasa, serta pemahaman teks panjang dan keterampilan penalaran. Mencapai kinerja yang kuat pada papan peringkat multibahasa MTEB (skor 64.33) dan menunjukkan hasil yang sangat baik di berbagai tugas termasuk pengambilan text, pengambilan kode, klasifikasi text, pengelompokan, dan penambangan bitext. Model ini menawarkan dimensi vektor fleksibel (32 hingga 1024) dan kemampuan instruksi-sadar untuk meningkatkan kinerja dalam tugas dan skenario tertentu, menjadikannya pilihan ideal untuk aplikasi yang memprioritaskan efisiensi dan efektivitas....

Input:

$

0.01

/ M Tokens

Black Forest Labs

text-to-image

FLUX.1 Kontext [pro]

Dirilis pada: 11 Jul 2025

$

0.04

/ Image

Black Forest Labs

text-to-image

FLUX.1 Kontext [max]

Dirilis pada: 11 Jul 2025

$

0.08

/ Image

Black Forest Labs

text-to-image

FLUX 1.1 [pro] Ultra

Dirilis pada: 11 Jul 2025

$

0.06

/ Image

Black Forest Labs

text-to-image

FLUX 1.1 [pro]

Dirilis pada: 11 Jul 2025

$

0.04

/ Image

Black Forest Labs

image-to-image

FLUX.1-Kontext-dev

Dirilis pada: 27 Jun 2025

$

0.015

/ Image

Z.ai

chat

GLM-Z1-32B-0414

Dirilis pada: 18 Apr 2025

GLM-Z1-32B-0414 adalah Model penalaran dengan kemampuan berpikir mendalam. Model ini dikembangkan berdasarkan GLM-4-32B-0414 melalui cold start dan penguatan belajar berlanjut, serta pelatihan lebih lanjut pada tugas yang melibatkan matematika, kode, dan logika. Dibandingkan dengan Model dasar, GLM-Z1-32B-0414 secara signifikan meningkatkan kemampuan matematika dan kemampuan untuk menyelesaikan tugas-tugas kompleks. Selama proses pelatihan, tim juga memperkenalkan pembelajaran penguatan umum berdasarkan umpan balik peringkat berpasangan, yang semakin meningkatkan kemampuan umum Model ini. Meskipun hanya memiliki 32B parameter, kinerjanya pada tugas tertentu sebanding dengan DeepSeek-R1 dengan 671B parameter. Melalui evaluasi pada tolak ukur seperti AIME 24/25, LiveCodeBench, dan GPQA, Model ini menunjukkan kemampuan penalaran matematika yang kuat dan dapat mendukung solusi untuk berbagai tugas kompleks yang lebih luas....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Z.ai

chat

GLM-4-32B-0414

Dirilis pada: 18 Apr 2025

GLM-4-32B-0414 adalah model generasi baru dalam keluarga GLM dengan 32 miliar parameter. Kinerjanya sebanding dengan seri GPT dari OpenAI dan seri V3/R1 dari DeepSeek, dan mendukung fitur deployment lokal yang sangat ramah pengguna. GLM-4-32B-Base-0414 dilatih sebelumnya pada 15T data berkualitas tinggi, termasuk sejumlah besar data sintetis tipe penalaran, yang menjadi dasar untuk pembelajaran penguatan ekstensi selanjutnya. Di tahap pasca-pelatihan, selain penyelarasan preferensi manusia untuk skenario dialog, tim memperkuat kinerja model dalam mengikuti instruksi, kode rekayasa, dan pemanggilan fungsi menggunakan teknik seperti penolakan sampling dan pembelajaran penguatan, memperkuat kemampuan atom yang diperlukan untuk tugas agen. GLM-4-32B-0414 mencapai hasil yang baik di bidang kode rekayasa, generasi Artefak, pemanggilan fungsi, Q&A berbasis pencarian, dan generasi laporan. Pada beberapa benchmark, kinerjanya mendekati atau bahkan melampaui model yang lebih besar seperti GPT-4o dan DeepSeek-V3-0324 (671B)...

Total Context:

33K

Max output:

33K

Input:

$

0.27

/ M Tokens

Output:

$

0.27

/ M Tokens

Z.ai

chat

GLM-Z1-9B-0414

Dirilis pada: 18 Apr 2025

GLM-Z1-9B-0414 adalah model berukuran kecil dalam seri GLM dengan hanya 9 miliar parameter yang mempertahankan tradisi open-source sambil menampilkan kemampuan yang mengejutkan. Meskipun memiliki skala yang lebih kecil, GLM-Z1-9B-0414 tetap menunjukkan kinerja yang sangat baik dalam penalaran matematika dan tugas umum. Kinerja keseluruhannya sudah berada di tingkat terdepan di antara model-model open-source dengan ukuran yang sama. Tim penelitian menerapkan rangkaian teknik yang sama yang digunakan untuk model yang lebih besar untuk melatih model 9B ini. Terutama dalam skenario yang terbatas sumber dayanya, Model ini mencapai keseimbangan yang sangat baik antara efisiensi dan efektivitas, menyediakan opsi kuat bagi pengguna yang mencari penerapan yang ringan. Model ini memiliki kemampuan berpikir mendalam dan dapat menangani konteks yang panjang melalui teknologi YaRN, menjadikannya sangat cocok untuk aplikasi yang memerlukan kemampuan penalaran matematika dengan sumber daya komputasi yang terbatas....

Total Context:

131K

Max output:

131K

Input:

$

0.086

/ M Tokens

Output:

$

0.086

/ M Tokens

Z.ai

chat

GLM-4-9B-0414

Dirilis pada: 18 Apr 2025

GLM-4-9B-0414 adalah model berukuran kecil dalam seri GLM dengan 9 miliar parameter. Model ini mewarisi karakteristik teknis dari seri GLM-4-32B tetapi menawarkan pilihan penerapan yang lebih ringan. Meskipun skalanya lebih kecil, GLM-4-9B-0414 tetap menunjukkan kemampuan yang luar biasa dalam pembuatan kode, desain web, pembuatan grafik SVG, dan tugas menulis berbasis pencarian. Model ini juga mendukung fitur pemanggilan fungsi, memungkinkan pemanggilan alat eksternal untuk memperluas jangkauan kemampuannya. Model ini menunjukkan keseimbangan yang baik antara efisiensi dan efektivitas dalam skenario yang terbatas sumber daya, memberikan opsi yang kuat bagi pengguna yang perlu menggunakan Model AI di bawah keterbatasan sumber daya komputasi. Seperti Model lainnya dalam seri yang sama, GLM-4-9B-0414 juga menunjukkan kinerja kompetitif dalam berbagai tes patokan....

Total Context:

33K

Max output:

33K

Input:

$

0.086

/ M Tokens

Output:

$

0.086

/ M Tokens

Qwen

chat

Qwen2.5-VL-32B-Instruct

Dirilis pada: 24 Mar 2025

Qwen2.5-VL-32B-Instruct adalah model bahasa besar multimodal yang dirilis oleh tim Qwen, bagian dari seri Qwen2.5-VL. Model ini tidak hanya mahir dalam mengenali objek umum tetapi juga sangat mampu menganalisis teks, bagan, ikon, grafis, dan tata letak dalam image. Ini berfungsi sebagai agen visual yang dapat beralasan dan secara dinamis mengarahkan alat, mampu menggunakan komputer dan telepon. Selain itu, model ini dapat secara akurat melokalisasi objek dalam image, dan menghasilkan output terstruktur untuk data seperti faktur dan tabel. Dibandingkan dengan pendahulunya Qwen2-VL, versi ini memiliki kemampuan matematika dan pemecahan masalah yang ditingkatkan melalui pembelajaran penguatan, dengan gaya respons yang disesuaikan agar lebih selaras dengan preferensi manusia...

Total Context:

131K

Max output:

131K

Input:

$

0.27

/ M Tokens

Output:

$

0.27

/ M Tokens

Qwen

chat

QwQ-32B

Dirilis pada: 6 Mar 2025

QwQ adalah model penalaran dari seri Qwen. Dibandingkan dengan model yang disesuaikan dengan instruksi konvensional, QwQ, yang mampu berpikir dan bernalar, dapat mencapai kinerja yang ditingkatkan secara signifikan dalam tugas hilir, terutama masalah yang sulit. QwQ-32B adalah model penalaran berukuran menengah, yang mampu mencapai kinerja kompetitif terhadap Model penalaran mutakhir, misalnya, DeepSeek-R1, o1-mini. Model ini menggabungkan teknologi seperti RoPE, SwiGLU, RMSNorm, dan bias Perhatian QKV, dengan 64 lapisan dan 40 kepala perhatian Q (8 untuk KV dalam arsitektur GQA)...

Total Context:

131K

Max output:

131K

Input:

$

0.15

/ M Tokens

Output:

$

0.58

/ M Tokens

Qwen

chat

Qwen2.5-VL-72B-Instruct

Dirilis pada: 28 Jan 2025

Qwen2.5-VL adalah model bahasa-visual dalam seri Qwen2.5 yang menunjukkan peningkatan signifikan dalam beberapa aspek: ia memiliki kemampuan pemahaman visual yang kuat, mengenali objek umum sambil menganalisis teks, grafik, dan tata letak dalam Image; ia berfungsi sebagai agen visual yang mampu bernalar dan mengarahkan alat secara dinamis; ia dapat memahami Video lebih dari 1 jam dan menangkap peristiwa utama; ia secara akurat melokalisasi objek dalam Image dengan menghasilkan kotak batas atau titik; dan ia mendukung Output terstruktur untuk data yang dipindai seperti faktur dan formulir. Model ini menunjukkan performa yang sangat baik di berbagai tolok ukur termasuk tugas-tugas Image, Video, dan agen....

Total Context:

131K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

Qwen

chat

Qwen2.5-VL-7B-Instruct

Dirilis pada: 28 Jan 2025

Qwen2.5-VL adalah anggota baru dari seri Qwen, dilengkapi dengan kemampuan pemahaman visual yang kuat. Ini dapat menganalisis Text, diagram, dan tata letak dalam Image, memahami Video panjang, dan menangkap kejadian. Ini mampu bernalar, memanipulasi alat, mendukung lokalisasi objek multi-format, dan menghasilkan Output terstruktur. Model telah dioptimalkan untuk resolusi dinamis dan pelatihan laju bingkai dalam pemahaman Video, dan telah meningkatkan efisiensi encoder visual....

Total Context:

33K

Max output:

4K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

DeepSeek

chat

DeepSeek-R1-Distill-Qwen-32B

Dirilis pada: 20 Jan 2025

DeepSeek-R1-Distill-Qwen-32B adalah model distilled berdasarkan Qwen2.5-32B. Model ini telah di-tuning ulang menggunakan 800k sampel terkurasi yang dihasilkan oleh DeepSeek-R1 dan menunjukkan kinerja yang luar biasa di berbagai tugas matematika, pemrograman, dan logika. Model ini mencapai hasil yang mengesankan dalam berbagai tolok ukur termasuk AIME 2024, MATH-500, dan GPQA Diamond, dengan akurasi yang menonjol sebesar 94,3% pada MATH-500, menunjukkan kemampuan penalaran matematis yang kuat....

Total Context:

131K

Max output:

131K

Input:

$

0.18

/ M Tokens

Output:

$

0.18

/ M Tokens

DeepSeek

chat

DeepSeek-R1-Distill-Qwen-14B

Dirilis pada: 20 Jan 2025

DeepSeek-R1-Distill-Qwen-14B adalah model distilasi berdasarkan Qwen2.5-14B. Model ini disesuaikan menggunakan 800k sampel terkurasi yang dihasilkan oleh DeepSeek-R1 dan menunjukkan kemampuan penalaran yang kuat. Ini mencapai hasil yang mengesankan di berbagai tolok ukur, termasuk akurasi 93,9% pada MATH-500, tingkat kelulusan 69,7% pada AIME 2024, dan peringkat 1481 di CodeForces, menunjukkan kemampuannya yang kuat dalam tugas matematika dan pemrograman....

Total Context:

131K

Max output:

131K

Input:

$

0.1

/ M Tokens

Output:

$

0.1

/ M Tokens

DeepSeek

chat

DeepSeek-R1-Distill-Qwen-7B

Dirilis pada: 20 Jan 2025

DeepSeek-R1-Distill-Qwen-7B adalah model distilasi berdasarkan Qwen2.5-Math-7B. Model ini di-tuning dengan menggunakan 800k sampel yang dikuratori yang dihasilkan oleh DeepSeek-R1 dan menunjukkan kemampuan penalaran yang kuat. Model ini mencapai hasil yang mengesankan di berbagai benchmark, termasuk akurasi 92.8% pada MATH-500, tingkat kelulusan 55.5% pada AIME 2024, dan peringkat 1189 di CodeForces, menunjukkan kemampuan matematika dan pemrograman yang luar biasa untuk model skala 7B...

Total Context:

33K

Max output:

16K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

Qwen

chat

Qwen2.5-Coder-32B-Instruct

Dirilis pada: 11 Nov 2024

Qwen2.5-Coder-32B-Instruct adalah model bahasa besar khusus kode yang dikembangkan berdasarkan Qwen2.5. Model ini telah menjalani pelatihan dengan 5,5 triliun token, mencapai peningkatan signifikan dalam pembuatan kode, penalaran kode, dan perbaikan kode. Ini saat ini merupakan model bahasa kode sumber terbuka yang paling canggih, dengan kemampuan pemrograman yang sebanding dengan GPT-4. Model ini tidak hanya meningkatkan kemampuan pemrograman, tetapi juga mempertahankan kekuatan dalam matematika dan kemampuan umum, serta mendukung pemrosesan teks panjang....

Total Context:

33K

Max output:

4K

Input:

$

0.18

/ M Tokens

Output:

$

0.18

/ M Tokens

Qwen

chat

Qwen2.5-72B-Instruct-128K

Dirilis pada: 18 Sep 2024

Qwen2.5-72B-Instruct adalah salah satu seri model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 72B ini menunjukkan peningkatan signifikan di bidang seperti pengkodean dan matematika. Ini mendukung panjang konteks hingga 128K tokens. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk Mandarin, Inggris, dan lainnya. Ini telah menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, terutama dalam format JSON....

Total Context:

131K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

DeepSeek

chat

deepseek-vl2

Dirilis pada: 13 Des 2024

DeepSeek-VL2 adalah model vision-language dengan tenaga ahli campuran (MoE) yang dikembangkan berdasarkan DeepSeekMoE-27B, menggunakan arsitektur MoE yang diaktifkan secara jarang untuk mencapai kinerja superior dengan hanya 4.5B parameter aktif. Model ini unggul dalam berbagai tugas termasuk menjawab pertanyaan visual, pengenalan karakter optik, pemahaman dokumen/tabel/chart, dan penempatan visual. Dibandingkan dengan model dense open-source yang ada dan model berbasis MoE, ia menunjukkan kinerja yang kompetitif atau paling unggul dengan menggunakan parameter aktif yang sama atau lebih sedikit....

Total Context:

4K

Max output:

4K

Input:

$

0.15

/ M Tokens

Output:

$

0.15

/ M Tokens

Qwen

chat

Qwen2.5-72B-Instruct

Dirilis pada: 18 Sep 2024

Qwen2.5-72B-Instruct adalah salah satu seri Model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 72B menunjukkan peningkatan signifikan dalam bidang seperti pemrograman dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Mandarin dan Inggris. Ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, terutama dalam format JSON....

Total Context:

33K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

Qwen

chat

Qwen2.5-32B-Instruct

Dirilis pada: 19 Sep 2024

Qwen2.5-32B-Instruct adalah salah satu seri Model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 32B ini menunjukkan peningkatan yang signifikan dalam bidang seperti pemrograman dan matematika. Model ini juga menawarkan dukungan multi-bahasa, mencakup lebih dari 29 bahasa, termasuk Tionghoa, Inggris, dan lainnya. Ini menunjukkan peningkatan yang mencolok dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, terutama dalam format JSON....

Total Context:

33K

Max output:

4K

Input:

$

0.18

/ M Tokens

Output:

$

0.18

/ M Tokens

Qwen

chat

Qwen2.5-14B-Instruct

Dirilis pada: 18 Sep 2024

Qwen2.5-14B-Instruct adalah salah satu seri model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 14B ini menunjukkan peningkatan signifikan di bidang seperti pengkodean dan matematika. Model ini juga menawarkan dukungan multi-bahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Tionghoa dan Inggris. Ini telah menunjukkan kemajuan yang mencolok dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, terutama dalam format JSON....

Total Context:

33K

Max output:

4K

Input:

$

0.1

/ M Tokens

Output:

$

0.1

/ M Tokens

Qwen

chat

Qwen2.5-7B-Instruct

Dirilis pada: 18 Sep 2024

Qwen2.5-7B-Instruct adalah salah satu dari seri model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 7B ini menunjukkan peningkatan signifikan dalam bidang seperti pengkodean dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Tionghoa, Inggris, dan lainnya. Model ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, khususnya JSON....

Total Context:

33K

Max output:

4K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

IndexTeam

text-to-speech

IndexTTS-2

Dirilis pada: 10 Sep 2025

IndexTTS2 adalah sebuah model Text-to-Speech (TTS) terobosan auto-regressive zero-shot yang dirancang untuk mengatasi tantangan kontrol durasi yang tepat dalam sistem TTS berskala besar, yang merupakan keterbatasan signifikan dalam aplikasi seperti dubbing video. Model ini memperkenalkan metode umum yang baru untuk kontrol durasi ucapan, mendukung dua mode: satu yang secara eksplisit menentukan jumlah token yang dihasilkan untuk durasi yang tepat, dan yang lain yang menghasilkan ucapan secara bebas dalam cara auto-regressive. Selain itu, IndexTTS2 mencapai pemisahan antara ekspresi emosional dan identitas pembicara, memungkinkan kontrol independen atas timbre dan emosi melalui prompt yang terpisah. Untuk meningkatkan kejelasan ucapan dalam ekspresi yang sangat emosional, model ini mengintegrasikan representasi laten GPT dan memanfaatkan paradigma pelatihan tiga tahap yang baru. Untuk menurunkan hambatan kontrol emosional, model ini juga memiliki mekanisme instruksi lembut berdasarkan deskripsi teks, yang dikembangkan dengan cara Fine-tuning Qwen3, untuk secara efektif membimbing generasi ucapan dengan nada emosional yang diinginkan. Hasil eksperimen menunjukkan bahwa IndexTTS2 mengungguli Model TTS zero-shot terkini dalam tingkat kesalahan kata, kesamaan pembicara, dan kesetiaan emosional di berbagai dataset....

$

7.15

/ M UTF-8 bytes

Meta Llama

chat

Meta-Llama-3.1-8B-Instruct

Dirilis pada: 23 Apr 2025

Meta Llama 3.1 adalah keluarga Model bahasa besar multibahasa yang dikembangkan oleh Meta, menampilkan varian yang telah dilatih sebelumnya dan disesuaikan instruksi dalam ukuran parameter 8B, 70B, dan 405B. Model 8B yang disesuaikan instruksi ini dioptimalkan untuk kasus penggunaan dialog multibahasa dan mengungguli banyak Model chat open-source dan tertutup yang tersedia pada tolok ukur industri umum. Model ini dilatih pada lebih dari 15 triliun token data yang tersedia untuk umum, menggunakan teknik seperti fine-tuning yang diawasi dan pembelajaran penguatan dengan umpan balik manusia untuk meningkatkan kegunaan dan keamanan. Llama 3.1 mendukung Text dan pembuatan kode, dengan batas pengetahuan hingga Desember 2023....

Total Context:

33K

Max output:

4K

Input:

$

0.06

/ M Tokens

Output:

$

0.06

/ M Tokens

Black Forest Labs

text-to-image

FLUX.1-dev

Dirilis pada: 1 Agu 2024

$

0.014

/ Image

Black Forest Labs

text-to-image

FLUX.1-schnell

Dirilis pada: 1 Agu 2024

$

0.0014

/ Image

Fish Audio

text-to-speech

Fish-Speech-1.5

Dirilis pada: 29 Nov 2024

Fish Speech V1.5 adalah model text-to-speech (TTS) open-source terkemuka. Model ini memanfaatkan arsitektur DualAR yang inovatif, menampilkan desain transformer autoregressive ganda. Ini mendukung beberapa bahasa, dengan lebih dari 300.000 jam data pelatihan untuk Bahasa Inggris dan Cina, dan lebih dari 100.000 jam untuk Bahasa Jepang. Dalam evaluasi independen oleh TTS Arena, model ini berkinerja sangat baik, dengan skor ELO 1339. Model ini mencapai tingkat kesalahan kata (WER) sebesar 3,5% dan tingkat kesalahan karakter (CER) sebesar 1,2% untuk Bahasa Inggris, serta CER sebesar 1,3% untuk karakter Cina....

$

15.0

/ M UTF-8 bytes

FunAudioLLM

text-to-speech

FunAudioLLM/CosyVoice2-0.5B

Dirilis pada: 16 Des 2024

CosyVoice 2 adalah Model sintesis suara streaming berdasarkan Model bahasa besar, menggunakan desain kerangka kerja streaming/tidak-streaming yang terpadu. Model tersebut meningkatkan pemanfaatan buku kode token suara melalui kuantisasi skalar terbatas (FSQ), menyederhanakan arsitektur Model bahasa Text-to-speech, dan mengembangkan Model pencocokan streaming kausal yang sadar chunk yang mendukung berbagai skenario sintesis. Dalam mode streaming, Model mencapai latensi ultra-rendah 150ms sambil mempertahankan kualitas sintesis yang hampir identik dengan mode non-streaming. Dibandingkan dengan versi 1.0, tingkat kesalahan pengucapan telah berkurang sebesar 30%-50%, skor MOS meningkat dari 5,4 menjadi 5,53, dan kontrol mendetail atas emosi serta dialek didukung. Model ini mendukung Bahasa Mandarin (termasuk dialek: Kanton, dialek Sichuan, bahasa Shanghai, dialek Tianjin, dll.), Bahasa Inggris, Jepang, Korea, dan mendukung skenario lintas bahasa dan campuran bahasa....

$

7.15

/ M UTF-8 bytes

Siap untuk mempercepat pengembangan AI Anda?

Siap untuk mempercepat pengembangan AI Anda?

Siap untuk mempercepat pengembangan AI Anda?

Indonesian (Indonesia)

© 2025 SiliconFlow

Indonesian (Indonesia)

© 2025 SiliconFlow

Indonesian (Indonesia)

© 2025 SiliconFlow