
Z.ai
chat
GLM-5.2
GLM-5.2 is Z.ai’s most capable open-source model to date, built for long-horizon agentic engineering with a truly usable 1M-token context window. It keeps project state intact across ultra-long tasks, reducing the need to compress or discard context—the longer the task, the more it can remember and reason....
Total Context:
1049K
Max output:
262K
Input:
$
1.4
/ M Tokens
Input:
$
0.26
/ M Tokens
Output:
$
4.4
/ M Tokens

Moonshot AI
chat
Kimi-K2.7-Code
Kimi K2.7 Code is a coding-focused agentic model built upon Kimi K2.6. With substantial improvements on real-world long-horizon coding tasks, it strengthens end-to-end task completion across complex software engineering workflows while improving token efficiency, reducing thinking-token usage by approximately 30% compared with Kimi K2.6....
Total Context:
262K
Max output:
262K
Input:
$
0.94
/ M Tokens
Input:
$
0.19
/ M Tokens
Output:
$
4.0
/ M Tokens

Nex AGI
chat
Nex-N2-Pro
Nex-N2 is a family of thinking models with Agentic Thinking. They adaptively decide when and how deeply to reason, unifying agent cognition across coding, search, and tool use into a single coherent paradigm. Key Claims - SOTA among open models on SWE-Verified, SWE-Pro, Terminal Bench 2.0, Tau3, WildClawBench, BFCL V4 - Top-tier in agentic coding (end-to-end dev loops), deep search (BrowserComp, Wild Search, FinSearch), and real-world productivity (GDP Val) - Adaptive Thinking: auto-adjusts reasoning depth per step, 30-50% fewer thinking tokens vs always-on, with equal or better performance - Plug-and-play with Claude Code, Cursor, OpenClaw, and agentic harnesses...
Total Context:
262K
Max output:
256K
Input:
$
0.0
/ M Tokens
Output:
$
0.0
/ M Tokens
DeepSeek
chat
DeepSeek-V4-Pro
DeepSeek-V4-Pro is DeepSeek's flagship open-source MoE model with 1.6T total parameters and 49B activated, purpose-built for frontier-level reasoning, coding, and agentic tasks. Supporting a 1M-token context window and three reasoning effort modes up to Think Max, it achieves top-tier performance on coding benchmarks such as LiveCodeBench and Codeforces — rivaling leading closed-source models — and is released under the MIT License....
Total Context:
1049K
Max output:
393K
Input:
$
1.6
/ M Tokens
Input:
$
0.135
/ M Tokens
Output:
$
3.135
/ M Tokens
DeepSeek
chat
DeepSeek-V4-Flash
DeepSeek-V4-Flash is DeepSeek's latest open-source MoE model featuring 284B total parameters with only 13B activated during inference, delivering high-speed generation without sacrificing capability. With native support for a 1M-token context window and three switchable reasoning modes — Non-Think, Think High, and Think Max — it offers flexible intelligence scaling from everyday tasks to complex reasoning, all under the MIT License....
Total Context:
1049K
Max output:
393K
Input:
$
0.13
/ M Tokens
Input:
$
0.028
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
chat
Qwen3.6-27B
Qwen3.6-27B is the first open-weight small-to-mid-sized dense model in the Qwen3.6 series, with targeted improvements for code generation, agent workflows, and real-world development tasks. Compared with Qwen3.5-27B, it delivers clear gains in frontend development, repository-level reasoning, tool use, and complex problem solving, while adding support for preserving reasoning context across turns to reduce redundant reasoning in iterative workflows. It also supports vision understanding with a native context length of 262,144 tokens...
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
3.2
/ M Tokens

Qwen
chat
Qwen3.6-35B-A3B
Qwen3.6-35B-A3B is a large language model from Alibaba's Qwen3.6 series, featuring a Mixture of Experts (MoE) architecture with 35 billion total parameters and approximately 3 billion active parameters per inference, delivering strong performance with efficient compute utilization. The model supports both thinking and non-thinking modes, offering flexible switching between rapid response and deep reasoning...
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.6
/ M Tokens

Moonshot AI
chat
Kimi-K2.6
Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...
Total Context:
262K
Max output:
262K
Input:
$
0.77
/ M Tokens
Input:
$
0.2
/ M Tokens
Output:
$
4.0
/ M Tokens

Tencent
chat
Hy3-preview
Hy3 preview is a 295B-parameter Mixture-of-Experts (MoE) language model from Tencent Hunyuan, built for production-grade agent workloads. With only 21B parameters activated per token and native 256K context support, it handles complex tasks like cross-file code refactoring, long-document analysis, and multi-step tool use, rather than just generating fluent dialogue. Hy3 scores near state-of-the-art on SWE-bench Verified and advanced STEM benchmarks, while offering three inference modes (no_think, think_low, think_high) to dynamically trade off latency and reasoning depth. Its sparse activation architecture delivers competitive intelligence at a significantly lower token cost....
Total Context:
262K
Max output:
262K
Input:
$
0.066
/ M Tokens
Input:
$
0.029
/ M Tokens
Output:
$
0.26
/ M Tokens

Z.ai
chat
GLM-5.1
GLM-5.1 is Z.ai's next-generation flagship model built for agentic engineering. It is designed to run continuously for hours or even longer, refining its strategy as it works—the longer it runs, the better the results....
Total Context:
205K
Max output:
131K
Input:
$
1.19
/ M Tokens
Input:
$
0.26
/ M Tokens
Output:
$
4.3
/ M Tokens
chat
gemma-4-26B-A4B-it
Gemma 4 26B is Google DeepMind's latest open-source MoE model, built on a 26B-parameter Mixture of Experts architecture that activates only 3.8B parameters during inference for exceptionally fast token throughput. Purpose-built for advanced reasoning and agentic workflows, it ranks #6 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....
Total Context:
262K
Max output:
262K
Input:
$
0.12
/ M Tokens
Output:
$
0.4
/ M Tokens
chat
gemma-4-31B-it
Gemma 4 31B is Google DeepMind's latest open-source model, built on a 31B dense architecture from the same research foundation as Gemini 3. Purpose-built for advanced reasoning and agentic workflows, it ranks #3 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....
Total Context:
262K
Max output:
262K
Input:
$
0.13
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
chat
Qwen3.5-9B
Qwen3.5-9B is a native multimodal large language model from the Qwen team with 9B parameters. As a lightweight dense model in the Qwen3.5 series, it features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...
Total Context:
262K
Max output:
262K
Input:
$
0.1
/ M Tokens
Output:
$
0.15
/ M Tokens

Qwen
chat
Qwen3.5-122B-A10B
Qwen3.5-122B-A10B is a native multimodal large language model from the Qwen team, with 122B total parameters and only 10B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 256K context length extensible up to ~1M tokens. Through early fusion training, it achieves unified vision-language capabilities supporting text, image, and video understanding, with strong performance across knowledge, reasoning, coding, agents, visual understanding, and multilingual benchmarks, surpassing GPT-5-mini and Qwen3-235B-A22B on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...
Total Context:
262K
Max output:
262K
Input:
$
0.26
/ M Tokens
Output:
$
2.08
/ M Tokens

Qwen
chat
Qwen3.5-27B
Qwen3.5-27B is a native multimodal large language model from the Qwen team with 27B parameters. It features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 256K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks, surpassing Qwen3-235B-A22B and GPT-5-mini on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...
Total Context:
262K
Max output:
262K
Input:
$
0.25
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3.5-35B-A3B
Qwen3.5-35B-A3B is a native multimodal large language model from the Qwen team, with 35B total parameters and only 3B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...
Total Context:
262K
Max output:
262K
Input:
$
0.24
/ M Tokens
Output:
$
1.8
/ M Tokens

Qwen
chat
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B is the latest vision-language model in the Qwen series, featuring a Mixture-of-Experts (MoE) architecture with 397B total parameters and 17B activated parameters. It natively supports 256K context length, extensible to approximately 1M tokens, with support for 201 languages, unified vision-language understanding, tool calling, and reasoning (thinking) mode...
Total Context:
262K
Max output:
262K
Input:
$
0.39
/ M Tokens
Output:
$
2.34
/ M Tokens

MiniMaxAI
chat
MiniMax-M2.5
MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...
Total Context:
197K
Max output:
131K
Input:
$
0.3
/ M Tokens
Input:
$
0.03
/ M Tokens
Output:
$
1.2
/ M Tokens

Z.ai
chat
GLM-5
GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....
Total Context:
205K
Max output:
131K
Input:
$
0.95
/ M Tokens
Input:
$
0.2
/ M Tokens
Output:
$
2.55
/ M Tokens

StepFun
chat
Step-3.5-Flash
Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...
Total Context:
262K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.3
/ M Tokens

Moonshot AI
chat
Kimi-K2.5
Kimi K2.5 adalah model agen multimodal asli open-source yang dibangun melalui pelatihan berkelanjutan pada sekitar 15 triliun kombinasi token visual dan Text di atas Kimi-K2-Base. Dengan arsitektur MoE berparameter 1T (32B aktif) dan panjang konteks 256K, model ini memadukan pemahaman Vision dan bahasa secara mulus dengan kemampuan agenik canggih, mendukung kedua mode instan dan pemikiran, serta paradigma percakapan dan agenik....
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Input:
$
0.07
/ M Tokens
Output:
$
2.25
/ M Tokens

Z.ai
GLM-4.7
GLM-4.7 adalah Model unggulan generasi baru dari Zhipu, dengan total 355B parameter dan 32B parameter yang diaktifkan, memberikan peningkatan komprehensif dalam percakapan umum, penalaran, dan kemampuan agen. Respon menjadi lebih ringkas dan alami; penulisan terasa lebih imersif; instruksi panggilan alat diikuti dengan lebih andal; dan polesan front-end dari artefak dan pengkodean agen—bersama dengan efisiensi penyelesaian tugas jangka panjang—telah lebih ditingkatkan....
Total Context:
205K
Max output:
205K
Input:
$
0.42
/ M Tokens
Output:
$
2.2
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2
DeepSeek-V3.2 adalah sebuah Model yang mengharmoniskan efisiensi komputasi tinggi dengan keunggulan penalaran dan kinerja agen. Pendekatannya dibangun di atas tiga terobosan teknis utama: DeepSeek Sparse Attention (DSA), sebuah mekanisme perhatian yang efisien yang secara signifikan mengurangi kompleksitas komputasi sambil mempertahankan kinerja Model, yang dioptimalkan secara khusus untuk skenario konteks panjang; sebuah Kerangka Pembelajaran Penguatan yang Dapat Diskalakan, yang memungkinkan kinerja yang sebanding dengan GPT-5 dan kepiawaian penalaran yang setara dengan Gemini-3.0-Pro dalam varian komputasi tinggi; dan sebuah Large-Scale Agentic Task Synthesis Pipeline untuk mengintegrasikan penalaran ke dalam skenario penggunaan alat, meningkatkan kepatuhan dan generalisasi dalam lingkungan interaktif yang kompleks. Model ini telah mencapai kinerja medali emas dalam Olimpiade Matematika Internasional (IMO) 2025 dan Olimpiade Informatika Internasional (IOI)....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
0.135
/ M Tokens
Output:
$
0.42
/ M Tokens

Tongyi-MAI
text-to-image
Z-Image-Turbo
$
0.005
/ Image


Qwen
chat
Qwen3-VL-32B-Thinking
Qwen3-VL-Thinking adalah versi dari seri Qwen3-VL yang dioptimalkan khusus untuk tugas penalaran visual yang kompleks. Ini mengintegrasikan "Mode Berpikir", yang memungkinkannya untuk menghasilkan langkah-langkah penalaran perantara yang rinci (Rantai-Pemikiran) sebelum memberikan jawaban akhir. Desain ini secara signifikan meningkatkan kinerja Model pada jawaban pertanyaan visual (VQA) dan tugas-tugas bahasa-vision lain yang memerlukan logika multi-langkah, perencanaan, dan analisis mendalam....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Instruct
Qwen3-VL adalah model vision-language dalam seri Qwen3, mencapai performa state-of-the-art (SOTA) pada berbagai benchmark vision-language (VL). Model ini mendukung input Image dengan resolusi tinggi hingga level megapiksel dan memiliki kemampuan kuat dalam memahami visual secara umum, OCR multibahasa, pengkaitan visual yang detail, dan dialog visual. Sebagai bagian dari seri Qwen3, model ini mewarisi fondasi bahasa yang kuat, memungkinkannya memahami dan melaksanakan instruksi yang kompleks....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
Qwen3-VL-8B-Instruct adalah model vision-language dari seri Qwen3, yang menunjukkan kemampuan kuat dalam pemahaman visual umum, dialog yang berpusat pada visual, dan pengenalan Text multibahasa dalam Image....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2-Exp
DeepSeek-V3.2-Exp adalah versi eksperimental dari model DeepSeek, dibangun di atas V3.1-Terminus. Ini memperkenalkan DeepSeek Sparse Attention(DSA) untuk pelatihan dan inference yang lebih cepat dan efisien pada konteks yang panjang....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.41
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus adalah versi terbaru yang dibangun di atas kekuatan V3.1 sambil menangani umpan balik pengguna utama. Ini meningkatkan konsistensi bahasa, mengurangi kejadian teks China-Inggris campuran dan karakter abnormal sesekali. Dan juga meningkatkan kinerja Agen Kode & Agen Pencarian yang lebih kuat....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens

inclusionAI
chat
Ling-flash-2.0
Ling-flash-2.0 adalah model bahasa dari inclusionAI dengan total 100 miliar parameter, di mana 6,1 miliar diaktifkan per token (4,8 miliar non-Embedding). Sebagai bagian dari seri arsitektur Ling 2.0, ini dirancang sebagai Model Mixture-of-Experts (MoE) yang ringan namun kuat. Ini bertujuan untuk memberikan kinerja yang sebanding atau bahkan melampaui model-model padat tingkat 40B dan Model MoE yang lebih besar lainnya, tetapi dengan jumlah parameter aktif yang jauh lebih kecil. Model ini mewakili strategi yang berfokus pada pencapaian performa tinggi dan efisiensi melalui desain arsitektur ekstrem dan metode pelatihan....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1
DeepSeek-V3.1 adalah model hibrida yang mendukung mode berfikir dan mode tidak berfikir. Melalui optimalisasi pasca-pelatihan, performa model dalam penggunaan alat dan tugas agen telah meningkat secara signifikan. DeepSeek-V3.1-Think mencapai kualitas jawaban yang sebanding dengan DeepSeek-R1-0528, sambil merespons lebih cepat....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
text-to-image
Qwen-Image-Edit
$
0.04
/ Image

OpenAI
chat
gpt-oss-20b
Seri gpt-oss adalah model open-weight OpenAI yang dirancang untuk penalaran yang kuat, tugas bersifat agen, dan kasus penggunaan pengembang yang serbaguna. gpt-oss-20b adalah untuk latensi lebih rendah, dan kasus penggunaan lokal atau khusus....
Total Context:
131K
Max output:
8K
Input:
$
0.04
/ M Tokens
Output:
$
0.18
/ M Tokens
OpenAI
chat
gpt-oss-120b
Seri gpt-oss adalah Model open-weight OpenAI yang dirancang untuk penalaran yang kuat, tugas agentik, dan kasus penggunaan pengembang yang serbaguna. gpt-oss-120b adalah untuk produksi, tujuan umum, kasus penggunaan penalaran tinggi yang cocok untuk GPU 80GB tunggal (seperti NVIDIA H100 atau AMD MI300X)....
Total Context:
131K
Max output:
8K
Input:
$
0.05
/ M Tokens
Output:
$
0.45
/ M Tokens

Qwen
text-to-image
Qwen-Image
$
0.02
/ Image


Qwen
chat
Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-30B-A3B-Instruct adalah model kode dari seri Qwen3 yang dikembangkan oleh tim Qwen dari Alibaba. Sebagai model yang disederhanakan dan dioptimalkan, ini mempertahankan kinerja dan efisiensi yang mengesankan sambil berfokus pada peningkatan kemampuan pengkodean. Ini menunjukkan keunggulan kinerja yang signifikan di antara model open-source pada tugas-tugas kompleks seperti Pengkodean Agen, Penggunaan Browser Agen, dan tugas pengkodean mendasar lainnya. Model ini secara native mendukung konteks panjang 256K tokens, yang dapat diperluas hingga 1M tokens, memungkinkan pemahaman dan pemrosesan skala repositori yang lebih baik. Selain itu, ini menyediakan dukungan pengkodean agen yang kuat untuk platform seperti Qwen Code dan CLINE, menampilkan format panggilan fungsi yang dirancang khusus....
Total Context:
262K
Max output:
262K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
chat
Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Instruct-2507 adalah versi terbaru dari mode non-berpikir Qwen3-30B-A3B. Ini adalah model Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter yang diaktifkan. Versi ini menampilkan peningkatan kunci, termasuk peningkatan signifikan dalam kemampuan umum seperti mengikuti instruksi, penalaran logis, pemahaman text, matematika, sains, pengkodean, dan penggunaan alat. Ini juga menunjukkan peningkatan substansial dalam cakupan pengetahuan jangka panjang di berbagai bahasa dan menawarkan penyelarasan yang jauh lebih baik dengan preferensi pengguna dalam tugas subjektif dan terbuka, memungkinkan respons yang lebih bermanfaat dan generasi text berkualitas tinggi. Selain itu, kemampuannya dalam pemahaman konteks panjang telah ditingkatkan menjadi 256K. Model ini hanya mendukung mode non-berpikir dan tidak menghasilkan blok `<think></think>` dalam output-nya....
Total Context:
262K
Max output:
262K
Input:
$
0.09
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
text-to-video
Wan2.2-T2V-A14B
$
0.29
/ Video


Qwen
image-to-video
Wan2.2-I2V-A14B
$
0.29
/ Video


Z.ai
chat
GLM-4.5-Air
Seri model GLM-4.5 adalah model dasar yang dirancang untuk agen cerdas. GLM-4.5-Air mengadopsi desain yang lebih kompak dengan total 106 miliar parameter dan 12 miliar parameter aktif. Ini juga merupakan model penalaran hibrida yang menyediakan mode berpikir dan mode non-berpikir....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Tencent
chat
Hunyuan-A13B-Instruct
Hunyuan-A13B-Instruct mengaktifkan hanya 13 B dari 80 B parameternya, namun sebanding dengan LLM yang jauh lebih besar pada tolok ukur arus utama. Ini menawarkan penalaran hibrida: mode “cepat” latensi rendah atau mode “lambat” presisi tinggi, dapat dialihkan per panggilan. Konteks 256 K-token asli memungkinkan untuk mencerna dokumen sepanjang buku tanpa degradasi. Keterampilan agen disesuaikan untuk kepemimpinan BFCL-v3, τ-Bench, dan C3-Bench, menjadikannya tulang punggung asisten otonom yang sangat baik. Grouped Query Attention plus kuantisasi multi-format memberikan inferensi yang ringan-memori, efisien-GPU untuk penerapan dunia nyata, dengan dukungan multibahasa bawaan dan penyelarasan keselamatan yang kuat untuk aplikasi kelas perusahaan....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens
IndexTeam
text-to-speech
IndexTTS-2
IndexTTS2 adalah sebuah model Text-to-Speech (TTS) terobosan auto-regressive zero-shot yang dirancang untuk mengatasi tantangan kontrol durasi yang tepat dalam sistem TTS berskala besar, yang merupakan keterbatasan signifikan dalam aplikasi seperti dubbing video. Model ini memperkenalkan metode umum yang baru untuk kontrol durasi ucapan, mendukung dua mode: satu yang secara eksplisit menentukan jumlah token yang dihasilkan untuk durasi yang tepat, dan yang lain yang menghasilkan ucapan secara bebas dalam cara auto-regressive. Selain itu, IndexTTS2 mencapai pemisahan antara ekspresi emosional dan identitas pembicara, memungkinkan kontrol independen atas timbre dan emosi melalui prompt yang terpisah. Untuk meningkatkan kejelasan ucapan dalam ekspresi yang sangat emosional, model ini mengintegrasikan representasi laten GPT dan memanfaatkan paradigma pelatihan tiga tahap yang baru. Untuk menurunkan hambatan kontrol emosional, model ini juga memiliki mekanisme instruksi lembut berdasarkan deskripsi teks, yang dikembangkan dengan cara Fine-tuning Qwen3, untuk secara efektif membimbing generasi ucapan dengan nada emosional yang diinginkan. Hasil eksperimen menunjukkan bahwa IndexTTS2 mengungguli Model TTS zero-shot terkini dalam tingkat kesalahan kata, kesamaan pembicara, dan kesetiaan emosional di berbagai dataset....
$
7.15
/ M UTF-8 bytes

Qwen
embedding
Qwen3-Embedding-8B
Qwen3-Embedding-8B adalah model kepemilikan terbaru dalam seri Qwen3 Embedding, dirancang khusus untuk tugas penanaman dan perankingan Text. Dibangun di atas model dasar padat dari seri Qwen3, model 8B parameter ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embedding dengan dimensi hingga 4096. Model ini mewarisi kemampuan multibahasa yang luar biasa yang mendukung lebih dari 100 bahasa, bersama dengan pemahaman dan keterampilan penalaran teks panjang. Model ini menempati peringkat No.1 di papan peringkat multibahasa MTEB (per 5 Juni 2025, skor 70.58) dan menunjukkan kinerja mutakhir dalam berbagai tugas termasuk pengambilan Text, pengambilan kode, klasifikasi Text, clustering, dan penambangan bitext. Model ini menawarkan dimensi vektor yang fleksibel (32 hingga 4096) dan kemampuan sadar instruksi untuk peningkatan kinerja dalam tugas dan skenario tertentu....
Input:
$
0.04
/ M Tokens

Qwen
embedding
Qwen3-Embedding-4B
Qwen3-Embedding-4B adalah model kepemilikan terbaru dalam seri Qwen3 Embedding, yang dirancang khusus untuk tugas embedding teks dan peringkat. Dibangun di atas model dasar yang padat dari seri Qwen3, model parameter 4B ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embedding dengan dimensi hingga 2560. Model ini mewarisi kemampuan multibahasa yang luar biasa yang mendukung lebih dari 100 bahasa, serta pemahaman teks panjang dan keterampilan penalaran. Model ini mencapai kinerja yang sangat baik pada papan peringkat multibahasa MTEB (skor 69,45) dan menunjukkan hasil luar biasa di berbagai tugas termasuk pengambilan kembali teks, pengambilan kembali kode, klasifikasi teks, pengelompokan, dan penambangan bitext. Model ini menawarkan dimensi vektor yang fleksibel (32 hingga 2560) dan kemampuan sadar instruksi untuk peningkatan kinerja dalam tugas dan skenario tertentu, memberikan keseimbangan optimal antara efisiensi dan efektivitas...
Input:
$
0.02
/ M Tokens

Qwen
embedding
Qwen3-Embedding-0.6B
Qwen3-Embedding-0.6B adalah model eksklusif terbaru dalam seri Qwen3 Embedding, yang dirancang khusus untuk tugas penyematan dan peringkat text. Dibangun di atas model dasar padat dari seri Qwen3, model parameter 0.6B ini mendukung panjang konteks hingga 32K dan dapat menghasilkan embeddings dengan dimensi hingga 1024. Model ini mewarisi kemampuan multibahasa yang luar biasa mendukung lebih dari 100 bahasa, serta pemahaman teks panjang dan keterampilan penalaran. Mencapai kinerja yang kuat pada papan peringkat multibahasa MTEB (skor 64.33) dan menunjukkan hasil yang sangat baik di berbagai tugas termasuk pengambilan text, pengambilan kode, klasifikasi text, pengelompokan, dan penambangan bitext. Model ini menawarkan dimensi vektor fleksibel (32 hingga 1024) dan kemampuan instruksi-sadar untuk meningkatkan kinerja dalam tugas dan skenario tertentu, menjadikannya pilihan ideal untuk aplikasi yang memprioritaskan efisiensi dan efektivitas....
Input:
$
0.01
/ M Tokens

Qwen
reranker
Qwen3-Reranker-0.6B
Qwen3-Reranker-0.6B adalah model pemeringkatan RAG dari seri Qwen3. Model ini dirancang khusus untuk memperbaiki hasil dari sistem pemulihan awal dengan mengatur ulang dokumen berdasarkan relevansinya dengan kueri tertentu. Dengan 0.6 miliar parameter dan panjang konteks 32k, Model ini memanfaatkan dukungan multibahasa yang kuat (mendukung lebih dari 100 bahasa), pemahaman RAG yang panjang, dan kemampuan penalaran dari fondasi Qwen3-nya. Hasil evaluasi menunjukkan bahwa Qwen3-Reranker-0.6B mencapai kinerja yang kuat di berbagai tolok ukur pengambilan RAG, termasuk MTEB-R, CMTEB-R, dan MLDR....
$
0.01
/ M Tokens

Qwen
reranker
Qwen3-Reranker-8B
Qwen3-Reranker-8B adalah model penyusunan ulang teks dengan 8 miliar parameter dari seri Qwen3. Model ini dirancang untuk menyempurnakan dan meningkatkan kualitas hasil pencarian dengan mengatur ulang dokumen secara akurat berdasarkan relevansinya terhadap sebuah kueri. Dibangun di atas model dasar Qwen3 yang kuat, model ini unggul dalam memahami teks panjang dengan panjang konteks 32k dan mendukung lebih dari 100 bahasa. Model Qwen3-Reranker-8B merupakan bagian dari seri fleksibel yang menawarkan kinerja mutakhir dalam berbagai skenario pengambilan teks dan kode....
$
0.04
/ M Tokens

Black Forest Labs
image-to-image
FLUX.1-Kontext-dev
$
0.015
/ Image


Qwen
chat
Qwen3-32B
Qwen3-32B adalah model bahasa besar terbaru dalam seri Qwen dengan 32.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog yang efisien dan tujuan umum). Ini menunjukkan kemampuan penalaran yang sangat meningkat, melampaui model QwQ dan Qwen2.5 instruct sebelumnya dalam matematika, pembuatan kode, dan penalaran logis nalar sehat. Model ini unggul dalam penjajaran preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-giliran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan penerjemahan....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
chat
Qwen3-14B
Qwen3-14B adalah model bahasa besar terbaru dalam seri Qwen dengan 14.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog tujuan umum yang efisien). Ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis berdasarkan akal sehat. Model ini unggul dalam penyelarasan preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-putaran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan terjemahan....
Total Context:
131K
Max output:
131K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
chat
Qwen3-8B
Qwen3-8B adalah model bahasa besar terbaru dalam seri Qwen dengan 8,2 miliar parameter. Model ini secara unik mendukung perpindahan mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk percakapan umum yang efisien dan multi-guna). Model ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis umum. Model ini unggul dalam kesesuaian preferensi manusia untuk penulisan kreatif, permainan peran, dan dialog multi-putaran. Selain itu, model ini mendukung lebih dari 100 bahasa dan dialek dengan kemampuan mengikuti instruksi multibahasa yang kuat dan kemampuan terjemahan....
Total Context:
131K
Max output:
131K
Input:
$
0.06
/ M Tokens
Output:
$
0.06
/ M Tokens
DeepSeek
chat
DeepSeek-R1
DeepSeek-R1-0528 adalah model yang ditingkatkan menunjukkan peningkatan signifikan dalam menangani tugas penalaran kompleks, juga menawarkan tingkat halusinasi yang berkurang, dukungan yang ditingkatkan untuk pemanggilan fungsi, dan pengalaman yang lebih baik untuk pengkodean vibe. Ini mencapai kinerja yang sebanding dengan O3 dan Gemini 2.5 Pro....
Total Context:
164K
Max output:
164K
Input:
$
0.5
/ M Tokens
Output:
$
2.18
/ M Tokens
DeepSeek
chat
DeepSeek-V3
DeepSeek-V3-0324 menunjukkan perbaikan yang signifikan dibandingkan pendahulunya, DeepSeek-V3, dalam beberapa aspek kunci, termasuk peningkatan besar dalam kinerja penalaran, keterampilan pengembangan front-end yang lebih kuat, dan kemampuan penggunaan alat yang lebih cerdas....
Total Context:
164K
Max output:
164K
Input:
$
0.25
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen2.5-7B-Instruct
Qwen2.5-7B-Instruct adalah salah satu dari seri model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 7B ini menunjukkan peningkatan signifikan dalam bidang seperti pengkodean dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Tionghoa, Inggris, dan lainnya. Model ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, khususnya JSON....
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens

Qwen
chat
Qwen2.5-72B-Instruct
Qwen2.5-72B-Instruct adalah salah satu seri Model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 72B menunjukkan peningkatan signifikan dalam bidang seperti pemrograman dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Mandarin dan Inggris. Ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, terutama dalam format JSON....
Total Context:
33K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Black Forest Labs
text-to-image
FLUX.1-dev
$
0.014
/ Image


Black Forest Labs
text-to-image
FLUX.1-schnell
$
0.0014
/ Image


MiniMaxAI
chat
MiniMax-M3
MiniMax-M3 is MiniMax’s frontier multimodal coding and agentic model, built on the MiniMax Sparse Attention (MSA) architecture. It supports up to a 1M-token context window and accepts image and video inputs. The model is designed for code generation, agentic workflows, tool use, long-context understanding, and multi-step reasoning, showing strong performance on benchmarks such as SWE-Bench Pro, Terminal-Bench 2.1, and MCP Atlas....
Total Context:
1049K
Max output:
131K
Input:
$
0.3
/ M Tokens
Input:
$
0.06
/ M Tokens
Output:
$
1.2
/ M Tokens
Fish Audio
text-to-speech
Fish-Speech-1.5
Fish Speech V1.5 adalah model text-to-speech (TTS) open-source terkemuka. Model ini memanfaatkan arsitektur DualAR yang inovatif, menampilkan desain transformer autoregressive ganda. Ini mendukung beberapa bahasa, dengan lebih dari 300.000 jam data pelatihan untuk Bahasa Inggris dan Cina, dan lebih dari 100.000 jam untuk Bahasa Jepang. Dalam evaluasi independen oleh TTS Arena, model ini berkinerja sangat baik, dengan skor ELO 1339. Model ini mencapai tingkat kesalahan kata (WER) sebesar 3,5% dan tingkat kesalahan karakter (CER) sebesar 1,2% untuk Bahasa Inggris, serta CER sebesar 1,3% untuk karakter Cina....
$
15.0
/ M UTF-8 bytes

FunAudioLLM
text-to-speech
FunAudioLLM/CosyVoice2-0.5B
CosyVoice 2 adalah Model sintesis suara streaming berdasarkan Model bahasa besar, menggunakan desain kerangka kerja streaming/tidak-streaming yang terpadu. Model tersebut meningkatkan pemanfaatan buku kode token suara melalui kuantisasi skalar terbatas (FSQ), menyederhanakan arsitektur Model bahasa Text-to-speech, dan mengembangkan Model pencocokan streaming kausal yang sadar chunk yang mendukung berbagai skenario sintesis. Dalam mode streaming, Model mencapai latensi ultra-rendah 150ms sambil mempertahankan kualitas sintesis yang hampir identik dengan mode non-streaming. Dibandingkan dengan versi 1.0, tingkat kesalahan pengucapan telah berkurang sebesar 30%-50%, skor MOS meningkat dari 5,4 menjadi 5,53, dan kontrol mendetail atas emosi serta dialek didukung. Model ini mendukung Bahasa Mandarin (termasuk dialek: Kanton, dialek Sichuan, bahasa Shanghai, dialek Tianjin, dll.), Bahasa Inggris, Jepang, Korea, dan mendukung skenario lintas bahasa dan campuran bahasa....
$
7.15
/ M UTF-8 bytes
ByteDance
chat
Seed-OSS-36B-Instruct
Seed-OSS adalah serangkaian model bahasa besar sumber terbuka yang dikembangkan oleh tim ByteDance Seed, dirancang untuk pemrosesan konteks panjang yang kuat, penalaran, kemampuan agen, dan kemampuan serba guna. Dalam seri ini, Seed-OSS-36B-Instruct adalah model yang telah disetel instruksi dengan 36 miliar parameter yang secara native mendukung panjang konteks ultra panjang, memungkinkan untuk memproses dokumen besar atau basis kode kompleks dalam satu kali pemrosesan. Model ini dioptimalkan secara khusus untuk penalaran, pengembangan kode, dan tugas agen (seperti penggunaan alat), sambil mempertahankan kemampuan serba guna yang seimbang dan sangat baik. Fitur utama dari model ini adalah fungsi 'Anggaran Pemikiran', yang memungkinkan pengguna untuk menyesuaikan panjang penalaran secara fleksibel sesuai kebutuhan, sehingga secara efektif meningkatkan efisiensi Inference dalam aplikasi praktis....
Total Context:
262K
Max output:
262K
Input:
$
0.21
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
chat
Qwen3-Coder-480B-A35B
Qwen3-Coder-480B-A35B-Instruct is the most agentic code model released by Alibaba to date. It is a Mixture-of-Experts (MoE) model with 480 billion total parameters and 35 billion activated parameters, balancing efficiency and performance. The model natively supports a 256K (approximately 262,144) token context length, which can be extended up to 1 million tokens using extrapolation methods like YaRN, enabling it to handle repository-scale codebases and complex programming tasks. Qwen3-Coder is specifically designed for agentic coding workflows, where it not only generates code but also autonomously interacts with developer tools and environments to solve complex problems. It has achieved state-of-the-art results among open models on various coding and agentic benchmarks, with performance comparable to leading models like Claude Sonnet 4. Alongside the model, Alibaba has also open-sourced Qwen Code, a command-line tool designed to fully unleash its powerful agentic coding capabilities...
Total Context:
262K
Max output:
262K
Input:
$
0.25
/ M Tokens
Input:
$
nan
/ M Tokens
Output:
$
1.0
/ M Tokens

Z.ai
chat
GLM-5V-Turbo
GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....
Total Context:
205K
Max output:
131K
Input:
$
1.2
/ M Tokens
Input:
$
0.24
/ M Tokens
Output:
$
4.0
/ M Tokens
chat
gemma-4-12B-it
Gemma 4 26B is Google DeepMind's latest open-source MoE model, built on a 26B-parameter Mixture of Experts architecture that activates only 3.8B parameters during inference for exceptionally fast token throughput. Purpose-built for advanced reasoning and agentic workflows, it ranks #6 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....
Total Context:
262K
Max output:
262K
Input:
$
0.1
/ M Tokens
Output:
$
0.3
/ M Tokens

