🎉 gemma-4-31B-it tersedia di SiliconFlow. Coba SEKARANG.

Model-model

Produk

Harga

Dokumen

Blog

Tentang

Kontak

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

State-of-the-Art

AI Model Library

One API to run inference on 200+ cutting-edge AI models, and deploy in seconds

All

Featured

LLM

Vision

Image

Video

Audio

Text Generation

Embedding

Reranker

Penyedia

DeepSeek

Text Generation

DeepSeek-V4-Pro

Dirilis pada: 24 Apr 2026

DeepSeek-V4-Pro is DeepSeek's flagship open-source MoE model with 1.6T total parameters and 49B activated, purpose-built for frontier-level reasoning, coding, and agentic tasks. Supporting a 1M-token context window and three reasoning effort modes up to Think Max, it achieves top-tier performance on coding benchmarks such as LiveCodeBench and Codeforces — rivaling leading closed-source models — and is released under the MIT License....

Total Context:

1049K

Max output:

393K

Input:

1.74

/ M Tokens

Input:

text

/ M Tokens

Output:

3.48

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V4-Flash

Dirilis pada: 24 Apr 2026

DeepSeek-V4-Flash is DeepSeek's latest open-source MoE model featuring 284B total parameters with only 13B activated during inference, delivering high-speed generation without sacrificing capability. With native support for a 1M-token context window and three switchable reasoning modes — Non-Think, Think High, and Think Max — it offers flexible intelligence scaling from everyday tasks to complex reasoning, all under the MIT License....

Total Context:

1049K

Max output:

393K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.28

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.6

Dirilis pada: 21 Apr 2026

Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...

Total Context:

262K

Max output:

262K

Input:

0.9

/ M Tokens

Input:

text

/ M Tokens

Output:

4.0

/ M Tokens

Tencent

Text Generation

Hy3-preview

Dirilis pada: 7 Apr 2026

Hy3 preview is a 295B-parameter Mixture-of-Experts (MoE) language model from Tencent Hunyuan, built for production-grade agent workloads. With only 21B parameters activated per token and native 256K context support, it handles complex tasks like cross-file code refactoring, long-document analysis, and multi-step tool use, rather than just generating fluent dialogue. Hy3 scores near state-of-the-art on SWE-bench Verified and advanced STEM benchmarks, while offering three inference modes (no_think, think_low, think_high) to dynamically trade off latency and reasoning depth. Its sparse activation architecture delivers competitive intelligence at a significantly lower token cost....

Total Context:

131K

Max output:

262K

Input:

0.066

/ M Tokens

Input:

text

/ M Tokens

Output:

0.26

/ M Tokens

Z.ai

Text Generation

GLM-5.1

Dirilis pada: 3 Apr 2026

GLM-5.1 is Z.ai's next-generation flagship model built for agentic engineering. It is designed to run continuously for hours or even longer, refining its strategy as it works—the longer it runs, the better the results....

Total Context:

205K

Max output:

131K

Input:

1.4

/ M Tokens

Input:

text

/ M Tokens

Output:

4.4

/ M Tokens

Qwen

Text Generation

Qwen3.6-35B-A3B

Dirilis pada: 17 Apr 2026

Qwen3.6-35B-A3B is a large language model from Alibaba's Qwen3.6 series, featuring a Mixture of Experts (MoE) architecture with 35 billion total parameters and approximately 3 billion active parameters per inference, delivering strong performance with efficient compute utilization. The model supports both thinking and non-thinking modes, offering flexible switching between rapid response and deep reasoning...

Total Context:

262K

Max output:

262K

Input:

0.2

/ M Tokens

Input:

text

/ M Tokens

Output:

1.6

/ M Tokens

Qwen

Text Generation

Qwen3.6-27B

Dirilis pada: 23 Apr 2026

Qwen3.6-27B is the first open-weight small-to-mid-sized dense model in the Qwen3.6 series, with targeted improvements for code generation, agent workflows, and real-world development tasks. Compared with Qwen3.5-27B, it delivers clear gains in frontend development, repository-level reasoning, tool use, and complex problem solving, while adding support for preserving reasoning context across turns to reduce redundant reasoning in iterative workflows. It also supports vision understanding with a native context length of 262,144 tokens...

Total Context:

262K

Max output:

262K

Input:

0.3

/ M Tokens

Input:

text

/ M Tokens

Output:

3.2

/ M Tokens

Z.ai

Text Generation

GLM-5V-Turbo

Dirilis pada: 30 Mar 2026

GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....

Total Context:

205K

Max output:

131K

Input:

1.2

/ M Tokens

Input:

text

/ M Tokens

Output:

4.0

/ M Tokens

Qwen

Text Generation

Qwen3.5-397B-A17B

Dirilis pada: 24 Apr 2026

Qwen3.5-397B-A17B is the latest vision-language model in the Qwen series, featuring a Mixture-of-Experts (MoE) architecture with 397B total parameters and 17B activated parameters. It natively supports 256K context length, extensible to approximately 1M tokens, with support for 201 languages, unified vision-language understanding, tool calling, and reasoning (thinking) mode...

Total Context:

262K

Max output:

262K

Input:

0.39

/ M Tokens

Input:

text

/ M Tokens

Output:

2.34

/ M Tokens

Qwen

Text Generation

Qwen3.5-122B-A10B

Dirilis pada: 24 Apr 2026

Qwen3.5-122B-A10B is a native multimodal large language model from the Qwen team, with 122B total parameters and only 10B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 256K context length extensible up to ~1M tokens. Through early fusion training, it achieves unified vision-language capabilities supporting text, image, and video understanding, with strong performance across knowledge, reasoning, coding, agents, visual understanding, and multilingual benchmarks, surpassing GPT-5-mini and Qwen3-235B-A22B on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

0.26

/ M Tokens

Input:

text

/ M Tokens

Output:

2.08

/ M Tokens

Qwen

Text Generation

Qwen3.5-35B-A3B

Dirilis pada: 25 Feb 2026

Qwen3.5-35B-A3B is a native multimodal large language model from the Qwen team, with 35B total parameters and only 3B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

0.24

/ M Tokens

Input:

text

/ M Tokens

Output:

1.8

/ M Tokens

Qwen

Text Generation

Qwen3.5-27B

Dirilis pada: 24 Apr 2026

Qwen3.5-27B is a native multimodal large language model from the Qwen team with 27B parameters. It features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 256K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks, surpassing Qwen3-235B-A22B and GPT-5-mini on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

0.25

/ M Tokens

Input:

text

/ M Tokens

Output:

2.0

/ M Tokens

Qwen

Text Generation

Qwen3.5-9B

Dirilis pada: 24 Apr 2026

Qwen3.5-9B is a native multimodal large language model from the Qwen team with 9B parameters. As a lightweight dense model in the Qwen3.5 series, it features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

0.1

/ M Tokens

Input:

text

/ M Tokens

Output:

0.15

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M2.5

Dirilis pada: 15 Feb 2026

MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...

Total Context:

197K

Max output:

131K

Input:

0.3

/ M Tokens

Input:

text

/ M Tokens

Output:

1.2

/ M Tokens

Z.ai

Text Generation

GLM-5

Dirilis pada: 12 Feb 2026

GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....

Total Context:

205K

Max output:

131K

Input:

0.95

/ M Tokens

Input:

text

/ M Tokens

Output:

2.55

/ M Tokens

StepFun

Text Generation

Step-3.5-Flash

Dirilis pada: 11 Feb 2026

Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...

Total Context:

262K

Max output:

66K

Input:

0.1

/ M Tokens

Input:

text

/ M Tokens

Output:

0.3

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.5

Dirilis pada: 30 Jan 2026

Kimi K2.5 adalah model agen multimodal asli open-source yang dibangun melalui pelatihan berkelanjutan pada sekitar 15 triliun kombinasi token visual dan Text di atas Kimi-K2-Base. Dengan arsitektur MoE berparameter 1T (32B aktif) dan panjang konteks 256K, model ini memadukan pemahaman Vision dan bahasa secara mulus dengan kemampuan agenik canggih, mendukung kedua mode instan dan pemikiran, serta paradigma percakapan dan agenik....

Total Context:

262K

Max output:

262K

Input:

0.45

/ M Tokens

Input:

text

/ M Tokens

Output:

2.25

/ M Tokens

Google

Text Generation

gemma-4-26B-A4B-it

Dirilis pada: 7 Apr 2026

Gemma 4 26B is Google DeepMind's latest open-source MoE model, built on a 26B-parameter Mixture of Experts architecture that activates only 3.8B parameters during inference for exceptionally fast token throughput. Purpose-built for advanced reasoning and agentic workflows, it ranks #6 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....

Total Context:

262K

Max output:

262K

Input:

0.12

/ M Tokens

Input:

text

/ M Tokens

Output:

0.4

/ M Tokens

Google

Text Generation

gemma-4-31B-it

Dirilis pada: 7 Apr 2026

Gemma 4 31B is Google DeepMind's latest open-source model, built on a 31B dense architecture from the same research foundation as Gemini 3. Purpose-built for advanced reasoning and agentic workflows, it ranks #3 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....

Total Context:

262K

Max output:

262K

Input:

0.13

/ M Tokens

Input:

text

/ M Tokens

Output:

0.4

/ M Tokens

Z.ai

Text Generation

GLM-4.7

Dirilis pada: 23 Des 2025

GLM-4.7 adalah Model unggulan generasi baru dari Zhipu, dengan total 355B parameter dan 32B parameter yang diaktifkan, memberikan peningkatan komprehensif dalam percakapan umum, penalaran, dan kemampuan agen. Respon menjadi lebih ringkas dan alami; penulisan terasa lebih imersif; instruksi panggilan alat diikuti dengan lebih andal; dan polesan front-end dari artefak dan pengkodean agen—bersama dengan efisiensi penyelesaian tugas jangka panjang—telah lebih ditingkatkan....

Total Context:

205K

Max output:

205K

Input:

0.42

/ M Tokens

Input:

text

/ M Tokens

Output:

2.2

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2

Dirilis pada: 4 Des 2025

DeepSeek-V3.2 adalah sebuah Model yang mengharmoniskan efisiensi komputasi tinggi dengan keunggulan penalaran dan kinerja agen. Pendekatannya dibangun di atas tiga terobosan teknis utama: DeepSeek Sparse Attention (DSA), sebuah mekanisme perhatian yang efisien yang secara signifikan mengurangi kompleksitas komputasi sambil mempertahankan kinerja Model, yang dioptimalkan secara khusus untuk skenario konteks panjang; sebuah Kerangka Pembelajaran Penguatan yang Dapat Diskalakan, yang memungkinkan kinerja yang sebanding dengan GPT-5 dan kepiawaian penalaran yang setara dengan Gemini-3.0-Pro dalam varian komputasi tinggi; dan sebuah Large-Scale Agentic Task Synthesis Pipeline untuk mengintegrasikan penalaran ke dalam skenario penggunaan alat, meningkatkan kepatuhan dan generalisasi dalam lingkungan interaktif yang kompleks. Model ini telah mencapai kinerja medali emas dalam Olimpiade Matematika Internasional (IMO) 2025 dan Olimpiade Informatika Internasional (IOI)....

Total Context:

164K

Max output:

164K

Input:

0.27

/ M Tokens

Input:

text

/ M Tokens

Output:

0.42

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2-Exp

Dirilis pada: 10 Okt 2025

DeepSeek-V3.2-Exp adalah versi eksperimental dari model DeepSeek, dibangun di atas V3.1-Terminus. Ini memperkenalkan DeepSeek Sparse Attention(DSA) untuk pelatihan dan inference yang lebih cepat dan efisien pada konteks yang panjang....

Total Context:

164K

Max output:

164K

Input:

0.27

/ M Tokens

Input:

text

/ M Tokens

Output:

0.41

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

Dirilis pada: 8 Des 2025

GLM-4.6V mencapai akurasi SOTA (State-of-the-Art) dalam pemahaman visual di antara model dengan skala parameter yang sama. Untuk pertama kalinya, ini secara asli mengintegrasikan kemampuan Function Call ke dalam arsitektur model visual, menjembatani kesenjangan antara "Visual Perception" dan "Executable Action." Ini menyediakan dasar teknis yang terpadu untuk Agent Multimodal di skenario bisnis dunia nyata. Selain itu, jendela konteks visual telah diperluas menjadi 128k, mendukung pemrosesan aliran video panjang dan analisis multi-Image beresolusi tinggi....

Total Context:

131K

Max output:

131K

Input:

0.3

/ M Tokens

Input:

text

/ M Tokens

Output:

0.9

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1-Terminus

Dirilis pada: 29 Sep 2025

DeepSeek-V3.1-Terminus adalah versi terbaru yang dibangun di atas kekuatan V3.1 sambil menangani umpan balik pengguna utama. Ini meningkatkan konsistensi bahasa, mengurangi kejadian teks China-Inggris campuran dan karakter abnormal sesekali. Dan juga meningkatkan kinerja Agen Kode & Agen Pencarian yang lebih kuat....

Total Context:

164K

Max output:

164K

Input:

0.27

/ M Tokens

Input:

text

/ M Tokens

Output:

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1

Dirilis pada: 25 Agu 2025

DeepSeek-V3.1 adalah model hibrida yang mendukung mode berfikir dan mode tidak berfikir. Melalui optimalisasi pasca-pelatihan, performa model dalam penggunaan alat dan tugas agen telah meningkat secara signifikan. DeepSeek-V3.1-Think mencapai kualitas jawaban yang sebanding dengan DeepSeek-R1-0528, sambil merespons lebih cepat....

Total Context:

164K

Max output:

164K

Input:

0.27

/ M Tokens

Input:

text

/ M Tokens

Output:

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3

Dirilis pada: 26 Des 2024

DeepSeek-V3-0324 menunjukkan perbaikan yang signifikan dibandingkan pendahulunya, DeepSeek-V3, dalam beberapa aspek kunci, termasuk peningkatan besar dalam kinerja penalaran, keterampilan pengembangan front-end yang lebih kuat, dan kemampuan penggunaan alat yang lebih cerdas....

Total Context:

164K

Max output:

164K

Input:

0.25

/ M Tokens

Input:

text

/ M Tokens

Output:

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1

Dirilis pada: 28 Mei 2025

DeepSeek-R1-0528 adalah model yang ditingkatkan menunjukkan peningkatan signifikan dalam menangani tugas penalaran kompleks, juga menawarkan tingkat halusinasi yang berkurang, dukungan yang ditingkatkan untuk pemanggilan fungsi, dan pengalaman yang lebih baik untuk pengkodean vibe. Ini mencapai kinerja yang sebanding dengan O3 dan Gemini 2.5 Pro....

Total Context:

164K

Max output:

164K

Input:

0.5

/ M Tokens

Input:

text

/ M Tokens

Output:

2.18

/ M Tokens

Nex AGI

Text Generation

DeepSeek-V3.1-Nex-N1

Dirilis pada: 19 Nov 2025

DeepSeek-V3.1-Nex-N1 adalah model bahasa besar yang dikembangkan berdasarkan model open-source terkemuka dan dioptimalkan melalui pelatihan ulang. Optimisasi ini secara signifikan meningkatkan kemampuannya, menghasilkan kinerja luar biasa dalam tugas Agen dan pembangkitan serta pemahaman kode, penggunaan alat, dan permainan peran. Model ini unggul dalam memecah tugas kompleks menjadi rencana multi-langkah dan secara proaktif mengklarifikasi ambiguitas untuk memastikan pelaksanaan yang andal dan akurat....

Total Context:

131K

Max output:

164K

Input:

0.27

/ M Tokens

Input:

text

/ M Tokens

Output:

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

Dirilis pada: 21 Okt 2025

Qwen3-VL adalah model vision-language dalam seri Qwen3, mencapai performa state-of-the-art (SOTA) pada berbagai benchmark vision-language (VL). Model ini mendukung input Image dengan resolusi tinggi hingga level megapiksel dan memiliki kemampuan kuat dalam memahami visual secara umum, OCR multibahasa, pengkaitan visual yang detail, dan dialog visual. Sebagai bagian dari seri Qwen3, model ini mewarisi fondasi bahasa yang kuat, memungkinkannya memahami dan melaksanakan instruksi yang kompleks....

Total Context:

262K

Max output:

262K

Input:

0.2

/ M Tokens

Input:

text

/ M Tokens

Output:

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

Dirilis pada: 21 Okt 2025

Qwen3-VL-Thinking adalah versi dari seri Qwen3-VL yang dioptimalkan khusus untuk tugas penalaran visual yang kompleks. Ini mengintegrasikan "Mode Berpikir", yang memungkinkannya untuk menghasilkan langkah-langkah penalaran perantara yang rinci (Rantai-Pemikiran) sebelum memberikan jawaban akhir. Desain ini secara signifikan meningkatkan kinerja Model pada jawaban pertanyaan visual (VQA) dan tugas-tugas bahasa-vision lain yang memerlukan logika multi-langkah, perencanaan, dan analisis mendalam....

Total Context:

262K

Max output:

262K

Input:

0.2

/ M Tokens

Input:

text

/ M Tokens

Output:

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

Dirilis pada: 15 Okt 2025

Qwen3-VL-8B-Instruct adalah model vision-language dari seri Qwen3, yang menunjukkan kemampuan kuat dalam pemahaman visual umum, dialog yang berpusat pada visual, dan pengenalan Text multibahasa dalam Image....

Total Context:

262K

Max output:

262K

Input:

0.18

/ M Tokens

Input:

text

/ M Tokens

Output:

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

Dirilis pada: 5 Okt 2025

Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....

Total Context:

262K

Max output:

262K

Input:

0.29

/ M Tokens

Input:

text

/ M Tokens

Output:

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

Dirilis pada: 11 Okt 2025

Total Context:

262K

Max output:

262K

Input:

0.29

/ M Tokens

Input:

text

/ M Tokens

Output:

1.0

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct-0905

Dirilis pada: 8 Sep 2025

Kimi K2-Instruct-0905, model bahasa campuran-para-ahli (MoE) canggih, adalah versi terbaru dan paling mumpuni dari Kimi K2. Fitur Utama meliputi kemampuan pengkodean yang ditingkatkan, khususnya front-end & pemanggilan alat, panjang konteks diperpanjang hingga 256k tokens, dan peningkatan integrasi dengan berbagai kerangka kerja agen....

Total Context:

262K

Max output:

262K

Input:

0.4

/ M Tokens

Input:

text

/ M Tokens

Output:

2.0

/ M Tokens

OpenAI

Text Generation

gpt-oss-120b

Dirilis pada: 13 Agu 2025

Seri gpt-oss adalah Model open-weight OpenAI yang dirancang untuk penalaran yang kuat, tugas agentik, dan kasus penggunaan pengembang yang serbaguna. gpt-oss-120b adalah untuk produksi, tujuan umum, kasus penggunaan penalaran tinggi yang cocok untuk GPU 80GB tunggal (seperti NVIDIA H100 atau AMD MI300X)....

Total Context:

131K

Max output:

Input:

0.05

/ M Tokens

Input:

text

/ M Tokens

Output:

0.45

/ M Tokens

OpenAI

Text Generation

gpt-oss-20b

Dirilis pada: 13 Agu 2025

Seri gpt-oss adalah model open-weight OpenAI yang dirancang untuk penalaran yang kuat, tugas bersifat agen, dan kasus penggunaan pengembang yang serbaguna. gpt-oss-20b adalah untuk latensi lebih rendah, dan kasus penggunaan lokal atau khusus....

Total Context:

131K

Max output:

Input:

0.04

/ M Tokens

Input:

text

/ M Tokens

Output:

0.18

/ M Tokens

Z.ai

Text Generation

GLM-4.6

Dirilis pada: 4 Okt 2025

Dibandingkan dengan GLM-4.5, GLM-4.6 memberikan beberapa peningkatan kunci, termasuk jendela konteks yang lebih panjang yang diperluas hingga 200K tokens, kinerja pengkodean yang unggul, penalaran yang lebih canggih, agen yang lebih mampu, dan penulisan yang lebih halus....

Total Context:

205K

Max output:

205K

Input:

0.39

/ M Tokens

Input:

text

/ M Tokens

Output:

1.9

/ M Tokens

Z.ai

Text Generation

GLM-4.5-Air

Dirilis pada: 28 Jul 2025

Seri model GLM-4.5 adalah model dasar yang dirancang untuk agen cerdas. GLM-4.5-Air mengadopsi desain yang lebih kompak dengan total 106 miliar parameter dan 12 miliar parameter aktif. Ini juga merupakan model penalaran hibrida yang menyediakan mode berpikir dan mode non-berpikir....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.86

/ M Tokens

inclusionAI

Text Generation

Ring-flash-2.0

Dirilis pada: 29 Sep 2025

Ring-flash-2.0 adalah model berpikir berperforma tinggi yang dioptimalkan secara mendalam berdasarkan Ling-flash-2.0-base. Ini adalah Model Mixture-of-Experts (MoE) dengan total 100B parameter, tetapi hanya 6.1B yang diaktifkan per Inference. Model ini memanfaatkan algoritma 'icepop' yang dikembangkan secara independen untuk mengatasi tantangan ketidakstabilan pelatihan dalam pembelajaran penguatan (RL) untuk MoE LLMs, memungkinkan peningkatan berkelanjutan dalam kemampuan penalaran kompleksnya selama siklus pelatihan RL yang diperpanjang. Ring-flash-2.0 menunjukkan terobosan signifikan di berbagai tolok ukur yang menantang, termasuk kompetisi matematika, pembuatan kode, dan penalaran logis. Kinerjanya melampaui model SOTA yang padat di bawah 40B parameter dan menyaingi Model MoE dengan bobot terbuka yang lebih besar dan API model pemikiran berkinerja tinggi tertutup. Lebih mengejutkan lagi, meskipun Ring-flash-2.0 dirancang terutama untuk penalaran kompleks, ia juga menunjukkan kemampuan kuat dalam penulisan kreatif. Berkat arsitekturnya yang efisien, ia mencapai Inference berkecepatan tinggi, secara signifikan mengurangi biaya Inference untuk Model berpikir dalam skenario konkruensi tinggi....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.57

/ M Tokens

inclusionAI

Text Generation

Ling-flash-2.0

Dirilis pada: 18 Sep 2025

Ling-flash-2.0 adalah model bahasa dari inclusionAI dengan total 100 miliar parameter, di mana 6,1 miliar diaktifkan per token (4,8 miliar non-Embedding). Sebagai bagian dari seri arsitektur Ling 2.0, ini dirancang sebagai Model Mixture-of-Experts (MoE) yang ringan namun kuat. Ini bertujuan untuk memberikan kinerja yang sebanding atau bahkan melampaui model-model padat tingkat 40B dan Model MoE yang lebih besar lainnya, tetapi dengan jumlah parameter aktif yang jauh lebih kecil. Model ini mewakili strategi yang berfokus pada pencapaian performa tinggi dan efisiensi melalui desain arsitektur ekstrem dan metode pelatihan....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-480B-A35B

Dirilis pada: 31 Jul 2025

Qwen3-Coder-480B-A35B-Instruct is the most agentic code model released by Alibaba to date. It is a Mixture-of-Experts (MoE) model with 480 billion total parameters and 35 billion activated parameters, balancing efficiency and performance. The model natively supports a 256K (approximately 262,144) token context length, which can be extended up to 1 million tokens using extrapolation methods like YaRN, enabling it to handle repository-scale codebases and complex programming tasks. Qwen3-Coder is specifically designed for agentic coding workflows, where it not only generates code but also autonomously interacts with developer tools and environments to solve complex problems. It has achieved state-of-the-art results among open models on various coding and agentic benchmarks, with performance comparable to leading models like Claude Sonnet 4. Alongside the model, Alibaba has also open-sourced Qwen Code, a command-line tool designed to fully unleash its powerful agentic coding capabilities...

Total Context:

262K

Max output:

262K

Input:

0.25

/ M Tokens

Input:

text

/ M Tokens

Output:

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-30B-A3B-Instruct

Dirilis pada: 1 Agu 2025

Qwen3-Coder-30B-A3B-Instruct adalah model kode dari seri Qwen3 yang dikembangkan oleh tim Qwen dari Alibaba. Sebagai model yang disederhanakan dan dioptimalkan, ini mempertahankan kinerja dan efisiensi yang mengesankan sambil berfokus pada peningkatan kemampuan pengkodean. Ini menunjukkan keunggulan kinerja yang signifikan di antara model open-source pada tugas-tugas kompleks seperti Pengkodean Agen, Penggunaan Browser Agen, dan tugas pengkodean mendasar lainnya. Model ini secara native mendukung konteks panjang 256K tokens, yang dapat diperluas hingga 1M tokens, memungkinkan pemahaman dan pemrosesan skala repositori yang lebih baik. Selain itu, ini menyediakan dukungan pengkodean agen yang kuat untuk platform seperti Qwen Code dan CLINE, menampilkan format panggilan fungsi yang dirancang khusus....

Total Context:

262K

Max output:

262K

Input:

0.07

/ M Tokens

Input:

text

/ M Tokens

Output:

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Instruct-2507

Dirilis pada: 30 Jul 2025

Qwen3-30B-A3B-Instruct-2507 adalah versi terbaru dari mode non-berpikir Qwen3-30B-A3B. Ini adalah model Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter yang diaktifkan. Versi ini menampilkan peningkatan kunci, termasuk peningkatan signifikan dalam kemampuan umum seperti mengikuti instruksi, penalaran logis, pemahaman text, matematika, sains, pengkodean, dan penggunaan alat. Ini juga menunjukkan peningkatan substansial dalam cakupan pengetahuan jangka panjang di berbagai bahasa dan menawarkan penyelarasan yang jauh lebih baik dengan preferensi pengguna dalam tugas subjektif dan terbuka, memungkinkan respons yang lebih bermanfaat dan generasi text berkualitas tinggi. Selain itu, kemampuannya dalam pemahaman konteks panjang telah ditingkatkan menjadi 256K. Model ini hanya mendukung mode non-berpikir dan tidak menghasilkan blok `<think></think>` dalam output-nya....

Total Context:

262K

Max output:

262K

Input:

0.09

/ M Tokens

Input:

text

/ M Tokens

Output:

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Thinking-2507

Dirilis pada: 31 Jul 2025

Qwen3-30B-A3B-Thinking-2507 adalah model berpikir terbaru dalam seri Qwen3, dirilis oleh tim Qwen dari Alibaba. Sebagai model Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter aktif, ia difokuskan untuk meningkatkan kemampuan dalam tugas-tugas kompleks. Model ini menunjukkan peningkatan kinerja yang signifikan pada tugas penalaran, termasuk penalaran logis, matematika, sains, pengkodean, dan tolok ukur akademik yang biasanya memerlukan keahlian manusia. Ini juga menunjukkan kemampuan umum yang jauh lebih baik, seperti mengikuti instruksi, penggunaan alat, Text generation, dan keselarasan dengan preferensi manusia. Model ini secara native mendukung kemampuan pemahaman konteks panjang 256K, yang dapat diperpanjang hingga 1 juta token. Versi ini secara khusus dirancang untuk ‘mode berpikir’ untuk menangani masalah yang sangat kompleks melalui penalaran langkah-demi-langkah dan juga unggul dalam kemampuan agentik....

Total Context:

262K

Max output:

131K

Input:

0.09

/ M Tokens

Input:

text

/ M Tokens

Output:

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Instruct-2507

Dirilis pada: 23 Jul 2025

Qwen3-235B-A22B-Instruct-2507 adalah model bahasa besar Mixture-of-Experts (MoE) unggulan dari seri Qwen3, yang dikembangkan oleh tim Qwen dari Alibaba Cloud. Model ini memiliki total 235 miliar parameter, dengan 22 miliar yang diaktifkan per forward pass. Ini dirilis sebagai versi terbaru dari mode non-berpikir Qwen3-235B-A22B, dengan peningkatan signifikan dalam kemampuan umum seperti mengikuti instruksi, penalaran logis, pemahaman Text, matematika, sains, pemrograman, dan penggunaan alat. Selain itu, model ini memberikan peningkatan besar dalam cakupan pengetahuan long-tail di berbagai bahasa dan menunjukkan perbaikan yang signifikan dalam keselarasan dengan preferensi pengguna dalam tugas yang subjektif dan terbuka, memungkinkan tanggapan yang lebih membantu dan penghasilan Text berkualitas tinggi. Yang penting, model ini mendukung native window konteks 256K (262,144 tokens) yang luas, yang meningkatkan kemampuannya untuk pemahaman konteks panjang. Versi ini secara eksklusif mendukung mode non-berpikir dan tidak menghasilkan blok <think>, yang bertujuan untuk memberikan tanggapan yang lebih efisien dan tepat untuk tugas seperti tanya jawab langsung dan pengambilan pengetahuan....

Total Context:

262K

Max output:

262K

Input:

0.09

/ M Tokens

Input:

text

/ M Tokens

Output:

0.6

/ M Tokens

ByteDance

Text Generation

Seed-OSS-36B-Instruct

Dirilis pada: 4 Sep 2025

Seed-OSS adalah serangkaian model bahasa besar sumber terbuka yang dikembangkan oleh tim ByteDance Seed, dirancang untuk pemrosesan konteks panjang yang kuat, penalaran, kemampuan agen, dan kemampuan serba guna. Dalam seri ini, Seed-OSS-36B-Instruct adalah model yang telah disetel instruksi dengan 36 miliar parameter yang secara native mendukung panjang konteks ultra panjang, memungkinkan untuk memproses dokumen besar atau basis kode kompleks dalam satu kali pemrosesan. Model ini dioptimalkan secara khusus untuk penalaran, pengembangan kode, dan tugas agen (seperti penggunaan alat), sambil mempertahankan kemampuan serba guna yang seimbang dan sangat baik. Fitur utama dari model ini adalah fungsi 'Anggaran Pemikiran', yang memungkinkan pengguna untuk menyesuaikan panjang penalaran secara fleksibel sesuai kebutuhan, sehingga secara efektif meningkatkan efisiensi Inference dalam aplikasi praktis....

Total Context:

262K

Max output:

262K

Input:

0.21

/ M Tokens

Input:

text

/ M Tokens

Output:

0.57

/ M Tokens

Tencent

Text Generation

Hunyuan-A13B-Instruct

Dirilis pada: 30 Jun 2025

Hunyuan-A13B-Instruct mengaktifkan hanya 13 B dari 80 B parameternya, namun sebanding dengan LLM yang jauh lebih besar pada tolok ukur arus utama. Ini menawarkan penalaran hibrida: mode “cepat” latensi rendah atau mode “lambat” presisi tinggi, dapat dialihkan per panggilan. Konteks 256 K-token asli memungkinkan untuk mencerna dokumen sepanjang buku tanpa degradasi. Keterampilan agen disesuaikan untuk kepemimpinan BFCL-v3, τ-Bench, dan C3-Bench, menjadikannya tulang punggung asisten otonom yang sangat baik. Grouped Query Attention plus kuantisasi multi-format memberikan inferensi yang ringan-memori, efisien-GPU untuk penerapan dunia nyata, dengan dukungan multibahasa bawaan dan penyelarasan keselamatan yang kuat untuk aplikasi kelas perusahaan....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.57

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct

Dirilis pada: 13 Jul 2025

Kimi K2 adalah model dasar Mixture-of-Experts (MoE) dengan kemampuan pengkodean dan agen yang luar biasa, menampilkan 1 triliun total parameter dan 32 miliar parameter yang diaktifkan. Dalam evaluasi tolok ukur yang mencakup penalaran pengetahuan umum, pemrograman, matematika, dan tugas terkait agen, model K2 melampaui model sumber terbuka terkemuka lainnya....

Total Context:

131K

Max output:

131K

Input:

0.58

/ M Tokens

Input:

text

/ M Tokens

Output:

2.29

/ M Tokens

Qwen

Text Generation

Qwen3-32B

Dirilis pada: 30 Apr 2025

Qwen3-32B adalah model bahasa besar terbaru dalam seri Qwen dengan 32.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog yang efisien dan tujuan umum). Ini menunjukkan kemampuan penalaran yang sangat meningkat, melampaui model QwQ dan Qwen2.5 instruct sebelumnya dalam matematika, pembuatan kode, dan penalaran logis nalar sehat. Model ini unggul dalam penjajaran preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-giliran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan penerjemahan....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Input:

text

/ M Tokens

Output:

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-14B

Dirilis pada: 30 Apr 2025

Qwen3-14B adalah model bahasa besar terbaru dalam seri Qwen dengan 14.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog tujuan umum yang efisien). Ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis berdasarkan akal sehat. Model ini unggul dalam penyelarasan preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-putaran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan terjemahan....

Total Context:

131K

Max output:

131K

Input:

0.07

/ M Tokens

Input:

text

/ M Tokens

Output:

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-8B

Dirilis pada: 30 Apr 2025

Qwen3-8B adalah model bahasa besar terbaru dalam seri Qwen dengan 8,2 miliar parameter. Model ini secara unik mendukung perpindahan mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk percakapan umum yang efisien dan multi-guna). Model ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis umum. Model ini unggul dalam kesesuaian preferensi manusia untuk penulisan kreatif, permainan peran, dan dialog multi-putaran. Selain itu, model ini mendukung lebih dari 100 bahasa dan dialek dengan kemampuan mengikuti instruksi multibahasa yang kuat dan kemampuan terjemahan....

Total Context:

131K

Max output:

131K

Input:

0.06

/ M Tokens

Input:

text

/ M Tokens

Output:

0.06

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct

Dirilis pada: 18 Sep 2024

Qwen2.5-72B-Instruct adalah salah satu seri Model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 72B menunjukkan peningkatan signifikan dalam bidang seperti pemrograman dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Mandarin dan Inggris. Ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, terutama dalam format JSON....

Total Context:

33K

Max output:

Input:

0.59

/ M Tokens

Input:

text

/ M Tokens

Output:

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-7B-Instruct

Dirilis pada: 18 Sep 2024

Qwen2.5-7B-Instruct adalah salah satu dari seri model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 7B ini menunjukkan peningkatan signifikan dalam bidang seperti pengkodean dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Tionghoa, Inggris, dan lainnya. Model ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, khususnya JSON....

Total Context:

33K

Max output:

Input:

0.05

/ M Tokens

Input:

text

/ M Tokens

Output:

0.05

/ M Tokens