State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

Qwen

Text Generation

Qwen3.6-35B-A3B

Qwen3.6-35B-A3B is a large language model from Alibaba's Qwen3.6 series, featuring a Mixture of Experts (MoE) architecture with 35 billion total parameters and approximately 3 billion active parameters per inference, delivering strong performance with efficient compute utilization. The model supports both thinking and non-thinking modes, offering flexible switching between rapid response and deep reasoning...

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.6

/ M Tokens

Qwen

Text Generation

Qwen3.6-27B

Qwen3.6-27B is the first open-weight small-to-mid-sized dense model in the Qwen3.6 series, with targeted improvements for code generation, agent workflows, and real-world development tasks. Compared with Qwen3.5-27B, it delivers clear gains in frontend development, repository-level reasoning, tool use, and complex problem solving, while adding support for preserving reasoning context across turns to reduce redundant reasoning in iterative workflows. It also supports vision understanding with a native context length of 262,144 tokens...

Total Context:

262K

Max output:

262K

Input:

$

0.3

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

3.2

/ M Tokens

Qwen

Text Generation

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B is the latest vision-language model in the Qwen series, featuring a Mixture-of-Experts (MoE) architecture with 397B total parameters and 17B activated parameters. It natively supports 256K context length, extensible to approximately 1M tokens, with support for 201 languages, unified vision-language understanding, tool calling, and reasoning (thinking) mode...

Total Context:

262K

Max output:

262K

Input:

$

0.39

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.34

/ M Tokens

Qwen

Text Generation

Qwen3.5-122B-A10B

Qwen3.5-122B-A10B is a native multimodal large language model from the Qwen team, with 122B total parameters and only 10B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 256K context length extensible up to ~1M tokens. Through early fusion training, it achieves unified vision-language capabilities supporting text, image, and video understanding, with strong performance across knowledge, reasoning, coding, agents, visual understanding, and multilingual benchmarks, surpassing GPT-5-mini and Qwen3-235B-A22B on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

$

0.26

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.08

/ M Tokens

Qwen

Text Generation

Qwen3.5-35B-A3B

Qwen3.5-35B-A3B is a native multimodal large language model from the Qwen team, with 35B total parameters and only 3B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

$

0.24

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.8

/ M Tokens

Qwen

Text Generation

Qwen3.5-27B

Qwen3.5-27B is a native multimodal large language model from the Qwen team with 27B parameters. It features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 256K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks, surpassing Qwen3-235B-A22B and GPT-5-mini on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

$

0.25

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.0

/ M Tokens

Qwen

Text Generation

Qwen3.5-9B

Qwen3.5-9B is a native multimodal large language model from the Qwen team with 9B parameters. As a lightweight dense model in the Qwen3.5 series, it features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

$

0.1

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.15

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

Qwen3-VL adalah model vision-language dalam seri Qwen3, mencapai performa state-of-the-art (SOTA) pada berbagai benchmark vision-language (VL). Model ini mendukung input Image dengan resolusi tinggi hingga level megapiksel dan memiliki kemampuan kuat dalam memahami visual secara umum, OCR multibahasa, pengkaitan visual yang detail, dan dialog visual. Sebagai bagian dari seri Qwen3, model ini mewarisi fondasi bahasa yang kuat, memungkinkannya memahami dan melaksanakan instruksi yang kompleks....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

Qwen3-VL-Thinking adalah versi dari seri Qwen3-VL yang dioptimalkan khusus untuk tugas penalaran visual yang kompleks. Ini mengintegrasikan "Mode Berpikir", yang memungkinkannya untuk menghasilkan langkah-langkah penalaran perantara yang rinci (Rantai-Pemikiran) sebelum memberikan jawaban akhir. Desain ini secara signifikan meningkatkan kinerja Model pada jawaban pertanyaan visual (VQA) dan tugas-tugas bahasa-vision lain yang memerlukan logika multi-langkah, perencanaan, dan analisis mendalam....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

Qwen3-VL-8B-Instruct adalah model vision-language dari seri Qwen3, yang menunjukkan kemampuan kuat dalam pemahaman visual umum, dialog yang berpusat pada visual, dan pengenalan Text multibahasa dalam Image....

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

Image-to-Video

Wan2.2-I2V-A14B

$

0.29

/ Video

Input:

$

text

/ Video

Qwen

Text-to-Video

Wan2.2-T2V-A14B

$

0.29

/ Video

Input:

$

text

/ Video

Qwen

Text-to-Image

Qwen-Image

$

0.02

/ Image

Input:

$

text

/ Image

Qwen

Text-to-Image

Qwen-Image-Edit

$

0.04

/ Image

Input:

$

text

/ Image

Qwen

Text Generation

Qwen3-Coder-480B-A35B

Qwen3-Coder-480B-A35B-Instruct is the most agentic code model released by Alibaba to date. It is a Mixture-of-Experts (MoE) model with 480 billion total parameters and 35 billion activated parameters, balancing efficiency and performance. The model natively supports a 256K (approximately 262,144) token context length, which can be extended up to 1 million tokens using extrapolation methods like YaRN, enabling it to handle repository-scale codebases and complex programming tasks. Qwen3-Coder is specifically designed for agentic coding workflows, where it not only generates code but also autonomously interacts with developer tools and environments to solve complex problems. It has achieved state-of-the-art results among open models on various coding and agentic benchmarks, with performance comparable to leading models like Claude Sonnet 4. Alongside the model, Alibaba has also open-sourced Qwen Code, a command-line tool designed to fully unleash its powerful agentic coding capabilities...

Total Context:

262K

Max output:

262K

Input:

$

0.25

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instruct adalah model kode dari seri Qwen3 yang dikembangkan oleh tim Qwen dari Alibaba. Sebagai model yang disederhanakan dan dioptimalkan, ini mempertahankan kinerja dan efisiensi yang mengesankan sambil berfokus pada peningkatan kemampuan pengkodean. Ini menunjukkan keunggulan kinerja yang signifikan di antara model open-source pada tugas-tugas kompleks seperti Pengkodean Agen, Penggunaan Browser Agen, dan tugas pengkodean mendasar lainnya. Model ini secara native mendukung konteks panjang 256K tokens, yang dapat diperluas hingga 1M tokens, memungkinkan pemahaman dan pemrosesan skala repositori yang lebih baik. Selain itu, ini menyediakan dukungan pengkodean agen yang kuat untuk platform seperti Qwen Code dan CLINE, menampilkan format panggilan fungsi yang dirancang khusus....

Total Context:

262K

Max output:

262K

Input:

$

0.07

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507 adalah versi terbaru dari mode non-berpikir Qwen3-30B-A3B. Ini adalah model Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter yang diaktifkan. Versi ini menampilkan peningkatan kunci, termasuk peningkatan signifikan dalam kemampuan umum seperti mengikuti instruksi, penalaran logis, pemahaman text, matematika, sains, pengkodean, dan penggunaan alat. Ini juga menunjukkan peningkatan substansial dalam cakupan pengetahuan jangka panjang di berbagai bahasa dan menawarkan penyelarasan yang jauh lebih baik dengan preferensi pengguna dalam tugas subjektif dan terbuka, memungkinkan respons yang lebih bermanfaat dan generasi text berkualitas tinggi. Selain itu, kemampuannya dalam pemahaman konteks panjang telah ditingkatkan menjadi 256K. Model ini hanya mendukung mode non-berpikir dan tidak menghasilkan blok `<think></think>` dalam output-nya....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-32B

Qwen3-32B adalah model bahasa besar terbaru dalam seri Qwen dengan 32.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog yang efisien dan tujuan umum). Ini menunjukkan kemampuan penalaran yang sangat meningkat, melampaui model QwQ dan Qwen2.5 instruct sebelumnya dalam matematika, pembuatan kode, dan penalaran logis nalar sehat. Model ini unggul dalam penjajaran preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-giliran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan penerjemahan....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-14B

Qwen3-14B adalah model bahasa besar terbaru dalam seri Qwen dengan 14.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog tujuan umum yang efisien). Ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis berdasarkan akal sehat. Model ini unggul dalam penyelarasan preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-putaran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan terjemahan....

Total Context:

131K

Max output:

131K

Input:

$

0.07

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-8B

Qwen3-8B adalah model bahasa besar terbaru dalam seri Qwen dengan 8,2 miliar parameter. Model ini secara unik mendukung perpindahan mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk percakapan umum yang efisien dan multi-guna). Model ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis umum. Model ini unggul dalam kesesuaian preferensi manusia untuk penulisan kreatif, permainan peran, dan dialog multi-putaran. Selain itu, model ini mendukung lebih dari 100 bahasa dan dialek dengan kemampuan mengikuti instruksi multibahasa yang kuat dan kemampuan terjemahan....

Total Context:

131K

Max output:

131K

Input:

$

0.06

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.06

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-8B

Qwen3-Reranker-8B adalah model penyusunan ulang teks dengan 8 miliar parameter dari seri Qwen3. Model ini dirancang untuk menyempurnakan dan meningkatkan kualitas hasil pencarian dengan mengatur ulang dokumen secara akurat berdasarkan relevansinya terhadap sebuah kueri. Dibangun di atas model dasar Qwen3 yang kuat, model ini unggul dalam memahami teks panjang dengan panjang konteks 32k dan mendukung lebih dari 100 bahasa. Model Qwen3-Reranker-8B merupakan bagian dari seri fleksibel yang menawarkan kinerja mutakhir dalam berbagai skenario pengambilan teks dan kode....

$

0.04

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-8B

Qwen3-Embedding-8B adalah model kepemilikan terbaru dalam seri Qwen3 Embedding, dirancang khusus untuk tugas penanaman dan perankingan Text. Dibangun di atas model dasar padat dari seri Qwen3, model 8B parameter ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embedding dengan dimensi hingga 4096. Model ini mewarisi kemampuan multibahasa yang luar biasa yang mendukung lebih dari 100 bahasa, bersama dengan pemahaman dan keterampilan penalaran teks panjang. Model ini menempati peringkat No.1 di papan peringkat multibahasa MTEB (per 5 Juni 2025, skor 70.58) dan menunjukkan kinerja mutakhir dalam berbagai tugas termasuk pengambilan Text, pengambilan kode, klasifikasi Text, clustering, dan penambangan bitext. Model ini menawarkan dimensi vektor yang fleksibel (32 hingga 4096) dan kemampuan sadar instruksi untuk peningkatan kinerja dalam tugas dan skenario tertentu....

Input:

$

0.04

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-4B

Qwen3-Embedding-4B adalah model kepemilikan terbaru dalam seri Qwen3 Embedding, yang dirancang khusus untuk tugas embedding teks dan peringkat. Dibangun di atas model dasar yang padat dari seri Qwen3, model parameter 4B ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embedding dengan dimensi hingga 2560. Model ini mewarisi kemampuan multibahasa yang luar biasa yang mendukung lebih dari 100 bahasa, serta pemahaman teks panjang dan keterampilan penalaran. Model ini mencapai kinerja yang sangat baik pada papan peringkat multibahasa MTEB (skor 69,45) dan menunjukkan hasil luar biasa di berbagai tugas termasuk pengambilan kembali teks, pengambilan kembali kode, klasifikasi teks, pengelompokan, dan penambangan bitext. Model ini menawarkan dimensi vektor yang fleksibel (32 hingga 2560) dan kemampuan sadar instruksi untuk peningkatan kinerja dalam tugas dan skenario tertentu, memberikan keseimbangan optimal antara efisiensi dan efektivitas...

Input:

$

0.02

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-0.6B

Qwen3-Reranker-0.6B adalah model pemeringkatan RAG dari seri Qwen3. Model ini dirancang khusus untuk memperbaiki hasil dari sistem pemulihan awal dengan mengatur ulang dokumen berdasarkan relevansinya dengan kueri tertentu. Dengan 0.6 miliar parameter dan panjang konteks 32k, Model ini memanfaatkan dukungan multibahasa yang kuat (mendukung lebih dari 100 bahasa), pemahaman RAG yang panjang, dan kemampuan penalaran dari fondasi Qwen3-nya. Hasil evaluasi menunjukkan bahwa Qwen3-Reranker-0.6B mencapai kinerja yang kuat di berbagai tolok ukur pengambilan RAG, termasuk MTEB-R, CMTEB-R, dan MLDR....

$

0.01

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-0.6B

Qwen3-Embedding-0.6B adalah model eksklusif terbaru dalam seri Qwen3 Embedding, yang dirancang khusus untuk tugas penyematan dan peringkat text. Dibangun di atas model dasar padat dari seri Qwen3, model parameter 0.6B ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embeddings dengan dimensi hingga 1024. Model ini mewarisi kemampuan multibahasa yang luar biasa mendukung lebih dari 100 bahasa, serta pemahaman teks panjang dan keterampilan penalaran. Mencapai kinerja yang kuat pada papan peringkat multibahasa MTEB (skor 64.33) dan menunjukkan hasil yang sangat baik di berbagai tugas termasuk pengambilan text, pengambilan kode, klasifikasi text, pengelompokan, dan penambangan bitext. Model ini menawarkan dimensi vektor fleksibel (32 hingga 1024) dan kemampuan instruksi-sadar untuk meningkatkan kinerja dalam tugas dan skenario tertentu, menjadikannya pilihan ideal untuk aplikasi yang memprioritaskan efisiensi dan efektivitas....

Input:

$

0.01

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct

Qwen2.5-72B-Instruct adalah salah satu seri Model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 72B menunjukkan peningkatan signifikan dalam bidang seperti pemrograman dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Mandarin dan Inggris. Ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, terutama dalam format JSON....

Total Context:

33K

Max output:

4K

Input:

$

0.59

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-7B-Instruct

Qwen2.5-7B-Instruct adalah salah satu dari seri model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 7B ini menunjukkan peningkatan signifikan dalam bidang seperti pengkodean dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Tionghoa, Inggris, dan lainnya. Model ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, khususnya JSON....

Total Context:

33K

Max output:

4K

Input:

$

0.05

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.05

/ M Tokens

Siap untuk mempercepat pengembangan AI Anda?

Siap untuk mempercepat pengembangan AI Anda?

Siap untuk mempercepat pengembangan AI Anda?