
MiniMaxAI
Text Generation
MiniMax-M2.5
MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...
Total Context:
197K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
1.2
/ M Tokens

Z.ai
Text Generation
GLM-5
GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....
Total Context:
205K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
2.55
/ M Tokens

StepFun
Text Generation
Step-3.5-Flash
Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...
Total Context:
262K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.3
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.5
Kimi K2.5 adalah model agen multimodal asli open-source yang dibangun melalui pelatihan berkelanjutan pada sekitar 15 triliun kombinasi token visual dan Text di atas Kimi-K2-Base. Dengan arsitektur MoE berparameter 1T (32B aktif) dan panjang konteks 256K, model ini memadukan pemahaman Vision dan bahasa secara mulus dengan kemampuan agenik canggih, mendukung kedua mode instan dan pemikiran, serta paradigma percakapan dan agenik....
Total Context:
262K
Max output:
262K
Input:
$
0.23
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.7
GLM-4.7 adalah Model unggulan generasi baru dari Zhipu, dengan total 355B parameter dan 32B parameter yang diaktifkan, memberikan peningkatan komprehensif dalam percakapan umum, penalaran, dan kemampuan agen. Respon menjadi lebih ringkas dan alami; penulisan terasa lebih imersif; instruksi panggilan alat diikuti dengan lebih andal; dan polesan front-end dari artefak dan pengkodean agen—bersama dengan efisiensi penyelesaian tugas jangka panjang—telah lebih ditingkatkan....
Total Context:
205K
Max output:
205K
Input:
$
0.42
/ M Tokens
Output:
$
2.2
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2
DeepSeek-V3.2 adalah sebuah Model yang mengharmoniskan efisiensi komputasi tinggi dengan keunggulan penalaran dan kinerja agen. Pendekatannya dibangun di atas tiga terobosan teknis utama: DeepSeek Sparse Attention (DSA), sebuah mekanisme perhatian yang efisien yang secara signifikan mengurangi kompleksitas komputasi sambil mempertahankan kinerja Model, yang dioptimalkan secara khusus untuk skenario konteks panjang; sebuah Kerangka Pembelajaran Penguatan yang Dapat Diskalakan, yang memungkinkan kinerja yang sebanding dengan GPT-5 dan kepiawaian penalaran yang setara dengan Gemini-3.0-Pro dalam varian komputasi tinggi; dan sebuah Large-Scale Agentic Task Synthesis Pipeline untuk mengintegrasikan penalaran ke dalam skenario penggunaan alat, meningkatkan kepatuhan dan generalisasi dalam lingkungan interaktif yang kompleks. Model ini telah mencapai kinerja medali emas dalam Olimpiade Matematika Internasional (IMO) 2025 dan Olimpiade Informatika Internasional (IOI)....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.42
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2-Exp
DeepSeek-V3.2-Exp adalah versi eksperimental dari model DeepSeek, dibangun di atas V3.1-Terminus. Ini memperkenalkan DeepSeek Sparse Attention(DSA) untuk pelatihan dan inference yang lebih cepat dan efisien pada konteks yang panjang....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.41
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
GLM-4.6V mencapai akurasi SOTA (State-of-the-Art) dalam pemahaman visual di antara model dengan skala parameter yang sama. Untuk pertama kalinya, ini secara asli mengintegrasikan kemampuan Function Call ke dalam arsitektur model visual, menjembatani kesenjangan antara "Visual Perception" dan "Executable Action." Ini menyediakan dasar teknis yang terpadu untuk Agent Multimodal di skenario bisnis dunia nyata. Selain itu, jendela konteks visual telah diperluas menjadi 128k, mendukung pemrosesan aliran video panjang dan analisis multi-Image beresolusi tinggi....
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus adalah versi terbaru yang dibangun di atas kekuatan V3.1 sambil menangani umpan balik pengguna utama. Ini meningkatkan konsistensi bahasa, mengurangi kejadian teks China-Inggris campuran dan karakter abnormal sesekali. Dan juga meningkatkan kinerja Agen Kode & Agen Pencarian yang lebih kuat....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1
DeepSeek-V3.1 adalah model hibrida yang mendukung mode berfikir dan mode tidak berfikir. Melalui optimalisasi pasca-pelatihan, performa model dalam penggunaan alat dan tugas agen telah meningkat secara signifikan. DeepSeek-V3.1-Think mencapai kualitas jawaban yang sebanding dengan DeepSeek-R1-0528, sambil merespons lebih cepat....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3
DeepSeek-V3-0324 menunjukkan perbaikan yang signifikan dibandingkan pendahulunya, DeepSeek-V3, dalam beberapa aspek kunci, termasuk peningkatan besar dalam kinerja penalaran, keterampilan pengembangan front-end yang lebih kuat, dan kemampuan penggunaan alat yang lebih cerdas....
Total Context:
164K
Max output:
164K
Input:
$
0.25
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1
DeepSeek-R1-0528 adalah model yang ditingkatkan menunjukkan peningkatan signifikan dalam menangani tugas penalaran kompleks, juga menawarkan tingkat halusinasi yang berkurang, dukungan yang ditingkatkan untuk pemanggilan fungsi, dan pengalaman yang lebih baik untuk pengkodean vibe. Ini mencapai kinerja yang sebanding dengan O3 dan Gemini 2.5 Pro....
Total Context:
164K
Max output:
164K
Input:
$
0.5
/ M Tokens
Output:
$
2.18
/ M Tokens

Nex AGI
Text Generation
DeepSeek-V3.1-Nex-N1
DeepSeek-V3.1-Nex-N1 adalah model bahasa besar yang dikembangkan berdasarkan model open-source terkemuka dan dioptimalkan melalui pelatihan ulang. Optimisasi ini secara signifikan meningkatkan kemampuannya, menghasilkan kinerja luar biasa dalam tugas Agen dan pembangkitan serta pemahaman kode, penggunaan alat, dan permainan peran. Model ini unggul dalam memecah tugas kompleks menjadi rencana multi-langkah dan secara proaktif mengklarifikasi ambiguitas untuk memastikan pelaksanaan yang andal dan akurat....
Total Context:
131K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
Qwen3-VL adalah model vision-language dalam seri Qwen3, mencapai performa state-of-the-art (SOTA) pada berbagai benchmark vision-language (VL). Model ini mendukung input Image dengan resolusi tinggi hingga level megapiksel dan memiliki kemampuan kuat dalam memahami visual secara umum, OCR multibahasa, pengkaitan visual yang detail, dan dialog visual. Sebagai bagian dari seri Qwen3, model ini mewarisi fondasi bahasa yang kuat, memungkinkannya memahami dan melaksanakan instruksi yang kompleks....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
Qwen3-VL-Thinking adalah versi dari seri Qwen3-VL yang dioptimalkan khusus untuk tugas penalaran visual yang kompleks. Ini mengintegrasikan "Mode Berpikir", yang memungkinkannya untuk menghasilkan langkah-langkah penalaran perantara yang rinci (Rantai-Pemikiran) sebelum memberikan jawaban akhir. Desain ini secara signifikan meningkatkan kinerja Model pada jawaban pertanyaan visual (VQA) dan tugas-tugas bahasa-vision lain yang memerlukan logika multi-langkah, perencanaan, dan analisis mendalam....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
Qwen3-VL-8B-Instruct adalah model vision-language dari seri Qwen3, yang menunjukkan kemampuan kuat dalam pemahaman visual umum, dialog yang berpusat pada visual, dan pengenalan Text multibahasa dalam Image....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
Qwen3-VL-235B-A22B-Instruct adalah model Vision-bahasa Mixture-of-Experts (MoE) dengan 235 miliar parameter, dengan 22 miliar parameter yang diaktifkan. Ini adalah versi Qwen3-VL-235B-A22B yang disetel untuk instruksi dan selaras untuk aplikasi Chat....
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
Qwen3-VL-235B-A22B-Thinking adalah salah satu model seri Qwen3-VL, edisi Thinking yang ditingkatkan untuk penalaran yang mencapai hasil state-of-the-art (SOTA) di berbagai tolok ukur penalaran Multimodal, unggul dalam STEM, matematika, analisis kausal, dan jawaban logis berbasis bukti. Ini menampilkan arsitektur Mixture-of-Experts (MoE) dengan total 235B parameter dan 22B parameter aktif....
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct-0905
Kimi K2-Instruct-0905, model bahasa campuran-para-ahli (MoE) canggih, adalah versi terbaru dan paling mumpuni dari Kimi K2. Fitur Utama meliputi kemampuan pengkodean yang ditingkatkan, khususnya front-end & pemanggilan alat, panjang konteks diperpanjang hingga 256k tokens, dan peningkatan integrasi dengan berbagai kerangka kerja agen....
Total Context:
262K
Max output:
262K
Input:
$
0.4
/ M Tokens
Output:
$
2
/ M Tokens
OpenAI
Text Generation
gpt-oss-120b
Seri gpt-oss adalah Model open-weight OpenAI yang dirancang untuk penalaran yang kuat, tugas agentik, dan kasus penggunaan pengembang yang serbaguna. gpt-oss-120b adalah untuk produksi, tujuan umum, kasus penggunaan penalaran tinggi yang cocok untuk GPU 80GB tunggal (seperti NVIDIA H100 atau AMD MI300X)....
Total Context:
131K
Max output:
8K
Input:
$
0.05
/ M Tokens
Output:
$
0.45
/ M Tokens
OpenAI
Text Generation
gpt-oss-20b
Seri gpt-oss adalah model open-weight OpenAI yang dirancang untuk penalaran yang kuat, tugas bersifat agen, dan kasus penggunaan pengembang yang serbaguna. gpt-oss-20b adalah untuk latensi lebih rendah, dan kasus penggunaan lokal atau khusus....
Total Context:
131K
Max output:
8K
Input:
$
0.04
/ M Tokens
Output:
$
0.18
/ M Tokens

Z.ai
Text Generation
GLM-4.6
Dibandingkan dengan GLM-4.5, GLM-4.6 memberikan beberapa peningkatan kunci, termasuk jendela konteks yang lebih panjang yang diperluas hingga 200K tokens, kinerja pengkodean yang unggul, penalaran yang lebih canggih, agen yang lebih mampu, dan penulisan yang lebih halus....
Total Context:
205K
Max output:
205K
Input:
$
0.39
/ M Tokens
Output:
$
1.9
/ M Tokens

Z.ai
Text Generation
GLM-4.5-Air
Seri model GLM-4.5 adalah model dasar yang dirancang untuk agen cerdas. GLM-4.5-Air mengadopsi desain yang lebih kompak dengan total 106 miliar parameter dan 12 miliar parameter aktif. Ini juga merupakan model penalaran hibrida yang menyediakan mode berpikir dan mode non-berpikir....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

inclusionAI
Text Generation
Ling-flash-2.0
Ling-flash-2.0 adalah model bahasa dari inclusionAI dengan total 100 miliar parameter, di mana 6,1 miliar diaktifkan per token (4,8 miliar non-Embedding). Sebagai bagian dari seri arsitektur Ling 2.0, ini dirancang sebagai Model Mixture-of-Experts (MoE) yang ringan namun kuat. Ini bertujuan untuk memberikan kinerja yang sebanding atau bahkan melampaui model-model padat tingkat 40B dan Model MoE yang lebih besar lainnya, tetapi dengan jumlah parameter aktif yang jauh lebih kecil. Model ini mewakili strategi yang berfokus pada pencapaian performa tinggi dan efisiensi melalui desain arsitektur ekstrem dan metode pelatihan....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

inclusionAI
Text Generation
Ring-flash-2.0
Ring-flash-2.0 adalah model berpikir berperforma tinggi yang dioptimalkan secara mendalam berdasarkan Ling-flash-2.0-base. Ini adalah Model Mixture-of-Experts (MoE) dengan total 100B parameter, tetapi hanya 6.1B yang diaktifkan per Inference. Model ini memanfaatkan algoritma 'icepop' yang dikembangkan secara independen untuk mengatasi tantangan ketidakstabilan pelatihan dalam pembelajaran penguatan (RL) untuk MoE LLMs, memungkinkan peningkatan berkelanjutan dalam kemampuan penalaran kompleksnya selama siklus pelatihan RL yang diperpanjang. Ring-flash-2.0 menunjukkan terobosan signifikan di berbagai tolok ukur yang menantang, termasuk kompetisi matematika, pembuatan kode, dan penalaran logis. Kinerjanya melampaui model SOTA yang padat di bawah 40B parameter dan menyaingi Model MoE dengan bobot terbuka yang lebih besar dan API model pemikiran berkinerja tinggi tertutup. Lebih mengejutkan lagi, meskipun Ring-flash-2.0 dirancang terutama untuk penalaran kompleks, ia juga menunjukkan kemampuan kuat dalam penulisan kreatif. Berkat arsitekturnya yang efisien, ia mencapai Inference berkecepatan tinggi, secara signifikan mengurangi biaya Inference untuk Model berpikir dalam skenario konkruensi tinggi....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-480B-A35B-Instruct
Qwen3-Coder-480B-A35B-Instruct adalah Model kode agen yang paling canggih yang dirilis oleh Alibaba hingga saat ini. Ini adalah Model Mixture-of-Experts (MoE) dengan total 480 miliar parameter dan 35 miliar parameter aktif, menyeimbangkan efisiensi dan kinerja. Model ini secara native mendukung panjang konteks token 256K (sekitar 262.144), yang dapat diperpanjang hingga 1 juta token menggunakan metode ekstrapolasi seperti YaRN, memungkinkan untuk menangani basis kode dalam skala repositori dan tugas pemrograman yang kompleks. Qwen3-Coder dirancang khusus untuk alur kerja pengkodean agen, di mana ia tidak hanya menghasilkan kode tetapi juga berinteraksi secara otomatis dengan alat dan lingkungan pengembang untuk memecahkan masalah yang kompleks. Ini telah mencapai hasil terkini di antara Model terbuka pada berbagai tolok ukur pengkodean dan agen, dengan kinerja sebanding dengan Model terkemuka seperti Claude Sonnet 4. Selain Model, Alibaba juga telah membuka kode Qwen Code, alat baris perintah yang dirancang untuk sepenuhnya melepaskan kemampuan pengkodean agenik yang kuat...
Total Context:
262K
Max output:
262K
Input:
$
0.25
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-30B-A3B-Instruct adalah model kode dari seri Qwen3 yang dikembangkan oleh tim Qwen dari Alibaba. Sebagai model yang disederhanakan dan dioptimalkan, ini mempertahankan kinerja dan efisiensi yang mengesankan sambil berfokus pada peningkatan kemampuan pengkodean. Ini menunjukkan keunggulan kinerja yang signifikan di antara model open-source pada tugas-tugas kompleks seperti Pengkodean Agen, Penggunaan Browser Agen, dan tugas pengkodean mendasar lainnya. Model ini secara native mendukung konteks panjang 256K tokens, yang dapat diperluas hingga 1M tokens, memungkinkan pemahaman dan pemrosesan skala repositori yang lebih baik. Selain itu, ini menyediakan dukungan pengkodean agen yang kuat untuk platform seperti Qwen Code dan CLINE, menampilkan format panggilan fungsi yang dirancang khusus....
Total Context:
262K
Max output:
262K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Instruct-2507 adalah versi terbaru dari mode non-berpikir Qwen3-30B-A3B. Ini adalah model Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter yang diaktifkan. Versi ini menampilkan peningkatan kunci, termasuk peningkatan signifikan dalam kemampuan umum seperti mengikuti instruksi, penalaran logis, pemahaman text, matematika, sains, pengkodean, dan penggunaan alat. Ini juga menunjukkan peningkatan substansial dalam cakupan pengetahuan jangka panjang di berbagai bahasa dan menawarkan penyelarasan yang jauh lebih baik dengan preferensi pengguna dalam tugas subjektif dan terbuka, memungkinkan respons yang lebih bermanfaat dan generasi text berkualitas tinggi. Selain itu, kemampuannya dalam pemahaman konteks panjang telah ditingkatkan menjadi 256K. Model ini hanya mendukung mode non-berpikir dan tidak menghasilkan blok `<think></think>` dalam output-nya....
Total Context:
262K
Max output:
262K
Input:
$
0.09
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Thinking-2507
Qwen3-30B-A3B-Thinking-2507 adalah model berpikir terbaru dalam seri Qwen3, dirilis oleh tim Qwen dari Alibaba. Sebagai model Mixture-of-Experts (MoE) dengan total 30,5 miliar parameter dan 3,3 miliar parameter aktif, ia difokuskan untuk meningkatkan kemampuan dalam tugas-tugas kompleks. Model ini menunjukkan peningkatan kinerja yang signifikan pada tugas penalaran, termasuk penalaran logis, matematika, sains, pengkodean, dan tolok ukur akademik yang biasanya memerlukan keahlian manusia. Ini juga menunjukkan kemampuan umum yang jauh lebih baik, seperti mengikuti instruksi, penggunaan alat, Text generation, dan keselarasan dengan preferensi manusia. Model ini secara native mendukung kemampuan pemahaman konteks panjang 256K, yang dapat diperpanjang hingga 1 juta token. Versi ini secara khusus dirancang untuk ‘mode berpikir’ untuk menangani masalah yang sangat kompleks melalui penalaran langkah-demi-langkah dan juga unggul dalam kemampuan agentik....
Total Context:
262K
Max output:
131K
Input:
$
0.09
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Instruct-2507
Qwen3-235B-A22B-Instruct-2507 adalah model bahasa besar Mixture-of-Experts (MoE) unggulan dari seri Qwen3, yang dikembangkan oleh tim Qwen dari Alibaba Cloud. Model ini memiliki total 235 miliar parameter, dengan 22 miliar yang diaktifkan per forward pass. Ini dirilis sebagai versi terbaru dari mode non-berpikir Qwen3-235B-A22B, dengan peningkatan signifikan dalam kemampuan umum seperti mengikuti instruksi, penalaran logis, pemahaman Text, matematika, sains, pemrograman, dan penggunaan alat. Selain itu, model ini memberikan peningkatan besar dalam cakupan pengetahuan long-tail di berbagai bahasa dan menunjukkan perbaikan yang signifikan dalam keselarasan dengan preferensi pengguna dalam tugas yang subjektif dan terbuka, memungkinkan tanggapan yang lebih membantu dan penghasilan Text berkualitas tinggi. Yang penting, model ini mendukung native window konteks 256K (262,144 tokens) yang luas, yang meningkatkan kemampuannya untuk pemahaman konteks panjang. Versi ini secara eksklusif mendukung mode non-berpikir dan tidak menghasilkan blok <think>, yang bertujuan untuk memberikan tanggapan yang lebih efisien dan tepat untuk tugas seperti tanya jawab langsung dan pengambilan pengetahuan....
Total Context:
262K
Max output:
262K
Input:
$
0.09
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B-Thinking-2507 adalah anggota dari seri Model bahasa besar Qwen3 yang dikembangkan oleh tim Qwen Alibaba, yang mengkhususkan diri dalam tugas-tugas penalaran yang sangat kompleks. Model ini dibangun di atas arsitektur Mixture-of-Experts (MoE), dengan total 235 miliar parameter dan sekitar 22 miliar parameter teraktivasi per token, yang meningkatkan efisiensi komputasi sambil mempertahankan kinerja yang kuat. Sebagai Model 'thinking' yang berdedikasi, ia menunjukkan peningkatan kinerja yang signifikan pada tugas-tugas yang membutuhkan keahlian manusia, seperti penalaran logis, matematika, sains, pengkodean, dan tolok ukur akademis, mencapai hasil mutakhir di antara model thinking sumber terbuka. Selain itu, Model ini memiliki kemampuan umum yang ditingkatkan seperti mengikuti instruksi, penggunaan alat, dan generasi Text, dan mendukung secara native kemampuan pemahaman konteks panjang 256K, menjadikannya ideal untuk skenario-skenario yang memerlukan penalaran mendalam dan pemrosesan dokumen yang panjang....
Total Context:
262K
Max output:
262K
Input:
$
0.13
/ M Tokens
Output:
$
0.6
/ M Tokens
ByteDance
Text Generation
Seed-OSS-36B-Instruct
Seed-OSS adalah serangkaian model bahasa besar sumber terbuka yang dikembangkan oleh tim ByteDance Seed, dirancang untuk pemrosesan konteks panjang yang kuat, penalaran, kemampuan agen, dan kemampuan serba guna. Dalam seri ini, Seed-OSS-36B-Instruct adalah model yang telah disetel instruksi dengan 36 miliar parameter yang secara native mendukung panjang konteks ultra panjang, memungkinkan untuk memproses dokumen besar atau basis kode kompleks dalam satu kali pemrosesan. Model ini dioptimalkan secara khusus untuk penalaran, pengembangan kode, dan tugas agen (seperti penggunaan alat), sambil mempertahankan kemampuan serba guna yang seimbang dan sangat baik. Fitur utama dari model ini adalah fungsi 'Anggaran Pemikiran', yang memungkinkan pengguna untuk menyesuaikan panjang penalaran secara fleksibel sesuai kebutuhan, sehingga secara efektif meningkatkan efisiensi Inference dalam aplikasi praktis....
Total Context:
262K
Max output:
262K
Input:
$
0.21
/ M Tokens
Output:
$
0.57
/ M Tokens

BAIDU
Text Generation
ERNIE-4.5-300B-A47B
ERNIE-4.5-300B-A47B adalah model bahasa besar yang dikembangkan oleh Baidu berdasarkan arsitektur Mixture-of-Experts (MoE). Model ini memiliki total 300 miliar parameter, tetapi hanya mengaktifkan 47 miliar parameter per token selama inference, sehingga menyeimbangkan kinerja yang kuat dengan efisiensi komputasi. Sebagai salah satu model inti dalam seri ERNIE 4.5, model ini dilatih pada kerangka kerja pembelajaran mendalam PaddlePaddle dan menunjukkan kemampuan luar biasa dalam tugas seperti pemahaman Text, pembangkitan, penalaran, dan pengkodean. Model ini memanfaatkan metode pra-pelatihan MoE heterogen Multimodal yang inovatif, yang secara efektif meningkatkan kemampuan keseluruhan melalui pelatihan bersama pada modalitas Text dan visual, menunjukkan hasil yang menonjol dalam mengikuti instruksi dan memori pengetahuan dunia. Baidu telah merilis sumber terbuka Model ini bersama dengan yang lain dalam seri untuk mempromosikan penelitian dan penerapan teknologi AI....
Total Context:
131K
Max output:
131K
Input:
$
0.28
/ M Tokens
Output:
$
1.1
/ M Tokens

Tencent
Text Generation
Hunyuan-A13B-Instruct
Hunyuan-A13B-Instruct mengaktifkan hanya 13 B dari 80 B parameternya, namun sebanding dengan LLM yang jauh lebih besar pada tolok ukur arus utama. Ini menawarkan penalaran hibrida: mode “cepat” latensi rendah atau mode “lambat” presisi tinggi, dapat dialihkan per panggilan. Konteks 256 K-token asli memungkinkan untuk mencerna dokumen sepanjang buku tanpa degradasi. Keterampilan agen disesuaikan untuk kepemimpinan BFCL-v3, τ-Bench, dan C3-Bench, menjadikannya tulang punggung asisten otonom yang sangat baik. Grouped Query Attention plus kuantisasi multi-format memberikan inferensi yang ringan-memori, efisien-GPU untuk penerapan dunia nyata, dengan dukungan multibahasa bawaan dan penyelarasan keselamatan yang kuat untuk aplikasi kelas perusahaan....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct
Kimi K2 adalah model dasar Mixture-of-Experts (MoE) dengan kemampuan pengkodean dan agen yang luar biasa, menampilkan 1 triliun total parameter dan 32 miliar parameter yang diaktifkan. Dalam evaluasi tolok ukur yang mencakup penalaran pengetahuan umum, pemrograman, matematika, dan tugas terkait agen, model K2 melampaui model sumber terbuka terkemuka lainnya....
Total Context:
131K
Max output:
131K
Input:
$
0.58
/ M Tokens
Output:
$
2.29
/ M Tokens

Qwen
Text Generation
Qwen3-32B
Qwen3-32B adalah model bahasa besar terbaru dalam seri Qwen dengan 32.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog yang efisien dan tujuan umum). Ini menunjukkan kemampuan penalaran yang sangat meningkat, melampaui model QwQ dan Qwen2.5 instruct sebelumnya dalam matematika, pembuatan kode, dan penalaran logis nalar sehat. Model ini unggul dalam penjajaran preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-giliran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan penerjemahan....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-14B
Qwen3-14B adalah model bahasa besar terbaru dalam seri Qwen dengan 14.8B parameter. Model ini secara unik mendukung pergantian mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk dialog tujuan umum yang efisien). Ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis berdasarkan akal sehat. Model ini unggul dalam penyelarasan preferensi manusia untuk penulisan kreatif, bermain peran, dan dialog multi-putaran. Selain itu, mendukung lebih dari 100 bahasa dan dialek dengan instruksi multibahasa yang kuat dan kemampuan terjemahan....
Total Context:
131K
Max output:
131K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-8B
Qwen3-8B adalah model bahasa besar terbaru dalam seri Qwen dengan 8,2 miliar parameter. Model ini secara unik mendukung perpindahan mulus antara mode berpikir (untuk penalaran logis yang kompleks, matematika, dan pemrograman) dan mode non-berpikir (untuk percakapan umum yang efisien dan multi-guna). Model ini menunjukkan kemampuan penalaran yang sangat ditingkatkan, melampaui model instruksi QwQ dan Qwen2.5 sebelumnya dalam matematika, pembuatan kode, dan penalaran logis umum. Model ini unggul dalam kesesuaian preferensi manusia untuk penulisan kreatif, permainan peran, dan dialog multi-putaran. Selain itu, model ini mendukung lebih dari 100 bahasa dan dialek dengan kemampuan mengikuti instruksi multibahasa yang kuat dan kemampuan terjemahan....
Total Context:
131K
Max output:
131K
Input:
$
0.06
/ M Tokens
Output:
$
0.06
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct adalah model bahasa besar multimodal yang dirilis oleh tim Qwen, bagian dari seri Qwen2.5-VL. Model ini tidak hanya mahir dalam mengenali objek umum tetapi juga sangat mampu menganalisis teks, bagan, ikon, grafis, dan tata letak dalam image. Ini berfungsi sebagai agen visual yang dapat beralasan dan secara dinamis mengarahkan alat, mampu menggunakan komputer dan telepon. Selain itu, model ini dapat secara akurat melokalisasi objek dalam image, dan menghasilkan output terstruktur untuk data seperti faktur dan tabel. Dibandingkan dengan pendahulunya Qwen2-VL, versi ini memiliki kemampuan matematika dan pemecahan masalah yang ditingkatkan melalui pembelajaran penguatan, dengan gaya respons yang disesuaikan agar lebih selaras dengan preferensi manusia...
Total Context:
131K
Max output:
131K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
QwQ-32B
QwQ adalah model penalaran dari seri Qwen. Dibandingkan dengan model yang disesuaikan dengan instruksi konvensional, QwQ, yang mampu berpikir dan bernalar, dapat mencapai kinerja yang ditingkatkan secara signifikan dalam tugas hilir, terutama masalah yang sulit. QwQ-32B adalah model penalaran berukuran menengah, yang mampu mencapai kinerja kompetitif terhadap Model penalaran mutakhir, misalnya, DeepSeek-R1, o1-mini. Model ini menggabungkan teknologi seperti RoPE, SwiGLU, RMSNorm, dan bias Perhatian QKV, dengan 64 lapisan dan 40 kepala perhatian Q (8 untuk KV dalam arsitektur GQA)...
Total Context:
131K
Max output:
131K
Input:
$
0.15
/ M Tokens
Output:
$
0.58
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
Qwen2.5-VL adalah model bahasa-visual dalam seri Qwen2.5 yang menunjukkan peningkatan signifikan dalam beberapa aspek: ia memiliki kemampuan pemahaman visual yang kuat, mengenali objek umum sambil menganalisis teks, grafik, dan tata letak dalam Image; ia berfungsi sebagai agen visual yang mampu bernalar dan mengarahkan alat secara dinamis; ia dapat memahami Video lebih dari 1 jam dan menangkap peristiwa utama; ia secara akurat melokalisasi objek dalam Image dengan menghasilkan kotak batas atau titik; dan ia mendukung Output terstruktur untuk data yang dipindai seperti faktur dan formulir. Model ini menunjukkan performa yang sangat baik di berbagai tolok ukur termasuk tugas-tugas Image, Video, dan agen....
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Qwen-32B adalah model distilled berdasarkan Qwen2.5-32B. Model ini telah di-tuning ulang menggunakan 800k sampel terkurasi yang dihasilkan oleh DeepSeek-R1 dan menunjukkan kinerja yang luar biasa di berbagai tugas matematika, pemrograman, dan logika. Model ini mencapai hasil yang mengesankan dalam berbagai tolok ukur termasuk AIME 2024, MATH-500, dan GPQA Diamond, dengan akurasi yang menonjol sebesar 94,3% pada MATH-500, menunjukkan kemampuan penalaran matematis yang kuat....
Total Context:
131K
Max output:
131K
Input:
$
0.18
/ M Tokens
Output:
$
0.18
/ M Tokens

Qwen
Text Generation
Qwen2.5-72B-Instruct
Qwen2.5-72B-Instruct adalah salah satu seri Model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 72B menunjukkan peningkatan signifikan dalam bidang seperti pemrograman dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Mandarin dan Inggris. Ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, terutama dalam format JSON....
Total Context:
33K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-7B-Instruct
Qwen2.5-7B-Instruct adalah salah satu dari seri model bahasa besar terbaru yang dirilis oleh Alibaba Cloud. Model 7B ini menunjukkan peningkatan signifikan dalam bidang seperti pengkodean dan matematika. Model ini juga menawarkan dukungan multibahasa, mencakup lebih dari 29 bahasa, termasuk bahasa Tionghoa, Inggris, dan lainnya. Model ini menunjukkan peningkatan yang signifikan dalam mengikuti instruksi, memahami data terstruktur, dan menghasilkan Output terstruktur, khususnya JSON....
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens

