
Moonshot AI
Text Generation
Kimi-K2.5
Dirilis pada: 30 Jan 2026
Kimi K2.5 adalah model agen multimodal asli open-source yang dibangun melalui pelatihan berkelanjutan pada sekitar 15 triliun kombinasi token visual dan Text di atas Kimi-K2-Base. Dengan arsitektur MoE berparameter 1T (32B aktif) dan panjang konteks 256K, model ini memadukan pemahaman Vision dan bahasa secara mulus dengan kemampuan agenik canggih, mendukung kedua mode instan dan pemikiran, serta paradigma percakapan dan agenik....
Total Context:
262K
Max output:
262K
Input:
$
0.55
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
Dirilis pada: 8 Des 2025
GLM-4.6V mencapai akurasi SOTA (State-of-the-Art) dalam pemahaman visual di antara model dengan skala parameter yang sama. Untuk pertama kalinya, ini secara asli mengintegrasikan kemampuan Function Call ke dalam arsitektur model visual, menjembatani kesenjangan antara "Visual Perception" dan "Executable Action." Ini menyediakan dasar teknis yang terpadu untuk Agent Multimodal di skenario bisnis dunia nyata. Selain itu, jendela konteks visual telah diperluas menjadi 128k, mendukung pemrosesan aliran video panjang dan analisis multi-Image beresolusi tinggi....
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
Dirilis pada: 21 Okt 2025
Qwen3-VL adalah model vision-language dalam seri Qwen3, mencapai performa state-of-the-art (SOTA) pada berbagai benchmark vision-language (VL). Model ini mendukung input Image dengan resolusi tinggi hingga level megapiksel dan memiliki kemampuan kuat dalam memahami visual secara umum, OCR multibahasa, pengkaitan visual yang detail, dan dialog visual. Sebagai bagian dari seri Qwen3, model ini mewarisi fondasi bahasa yang kuat, memungkinkannya memahami dan melaksanakan instruksi yang kompleks....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
Dirilis pada: 21 Okt 2025
Qwen3-VL-Thinking adalah versi dari seri Qwen3-VL yang dioptimalkan khusus untuk tugas penalaran visual yang kompleks. Ini mengintegrasikan "Mode Berpikir", yang memungkinkannya untuk menghasilkan langkah-langkah penalaran perantara yang rinci (Rantai-Pemikiran) sebelum memberikan jawaban akhir. Desain ini secara signifikan meningkatkan kinerja Model pada jawaban pertanyaan visual (VQA) dan tugas-tugas bahasa-vision lain yang memerlukan logika multi-langkah, perencanaan, dan analisis mendalam....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
Dirilis pada: 15 Okt 2025
Qwen3-VL-8B-Instruct adalah model vision-language dari seri Qwen3, yang menunjukkan kemampuan kuat dalam pemahaman visual umum, dialog yang berpusat pada visual, dan pengenalan Text multibahasa dalam Image....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Thinking
Dirilis pada: 15 Okt 2025
Qwen3-VL-8B-Thinking adalah model vision-bahasa dari seri Qwen3, dioptimalkan untuk skenario yang memerlukan penalaran kompleks. Dalam mode Thinking ini, model melakukan pemikiran dan penalaran langkah demi langkah sebelum memberikan jawaban akhir....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
Dirilis pada: 4 Okt 2025
Qwen3-VL-235B-A22B-Instruct adalah model Vision-bahasa Mixture-of-Experts (MoE) dengan 235 miliar parameter, dengan 22 miliar parameter yang diaktifkan. Ini adalah versi Qwen3-VL-235B-A22B yang disetel untuk instruksi dan selaras untuk aplikasi Chat....
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
Dirilis pada: 4 Okt 2025
Qwen3-VL-235B-A22B-Thinking adalah salah satu model seri Qwen3-VL, edisi Thinking yang ditingkatkan untuk penalaran yang mencapai hasil state-of-the-art (SOTA) di berbagai tolok ukur penalaran Multimodal, unggul dalam STEM, matematika, analisis kausal, dan jawaban logis berbasis bukti. Ini menampilkan arsitektur Mixture-of-Experts (MoE) dengan total 235B parameter dan 22B parameter aktif....
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
Dirilis pada: 5 Okt 2025
Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
Dirilis pada: 11 Okt 2025
Seri Qwen3-VL menawarkan pemahaman & generasi Text yang superior, persepsi visual & penalaran yang lebih dalam, panjang konteks yang diperpanjang, pemahaman dinamika Video dan spasial yang ditingkatkan, serta kemampuan interaksi agen yang lebih kuat. Tersedia dalam arsitektur Dense dan MoE yang dapat diskalakan dari edge ke cloud, dengan edisi Thinking yang ditingkatkan oleh instruksi dan penalaran....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Z.ai
Text Generation
GLM-4.5V
Dirilis pada: 13 Agu 2025
Sebagai bagian dari keluarga model GLM-V, GLM-4.5V didasarkan pada model dasar ZhipuAI, GLM-4.5-Air, mencapai kinerja SOTA pada tugas-tugas seperti Image, Video, dan pemahaman dokumen, serta operasi agen GUI....
Total Context:
66K
Max output:
66K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Captioner
Dirilis pada: 4 Okt 2025
Qwen3-Omni-30B-A3B-Captioner adalah Model Bahasa-Visi (VLM) dari tim Qwen Alibaba, bagian dari seri Qwen3. Ini dirancang khusus untuk menghasilkan keterangan gambar yang berkualitas tinggi, detail, dan akurat. Berdasarkan arsitektur Mixture of Experts (MoE) dengan total 30B parameter, model ini dapat memahami konten Image secara mendalam dan menerjemahkannya menjadi Text bahasa alami yang kaya....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Instruct
Dirilis pada: 4 Okt 2025
Qwen3-Omni-30B-A3B-Instruct adalah anggota dari seri terbaru Qwen3 dari tim Qwen Alibaba. Ini adalah model Mixture of Experts (MoE) dengan total 30 miliar parameter dan 3 miliar parameter aktif, yang secara efektif mengurangi biaya inference sambil mempertahankan kinerja yang kuat. Model ini dilatih pada data multibahasa, multi-sumber, dan berkualitas tinggi, menunjukkan kinerja yang sangat baik dalam kemampuan dasar seperti dialog multibahasa, serta dalam pengkodean dan matematika....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Thinking
Dirilis pada: 4 Okt 2025
Qwen3-Omni-30B-A3B-Thinking adalah komponen utama "Thinker" dalam arsitektur "Thinker-Talker" model omni-modal Qwen3-Omni. Ini dirancang khusus untuk memproses input multimodal, termasuk Text, Audio, Image, dan Video, dan untuk menjalankan penalaran rantai-pemikiran yang kompleks. Sebagai otak penalaran dari sistem, Model ini menyatukan semua Input ke dalam ruang representasional umum untuk pemahaman dan analisis, tetapi Output-nya hanya Text. Desain ini memungkinkannya unggul dalam menyelesaikan masalah kompleks yang membutuhkan pemikiran mendalam dan pemahaman lintas-modal, seperti masalah matematika yang disajikan dalam Image, menjadikannya kunci untuk kemampuan kognitif yang kuat dari seluruh arsitektur Qwen3-Omni....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

StepFun
Text Generation
step3
Dirilis pada: 6 Agu 2025
Step3 adalah model penalaran Multimodal mutakhir dari StepFun. Itu dibangun pada arsitektur Mixture-of-Experts (MoE) dengan total 321B parameter dan 38B parameter aktif. Model ini dirancang end-to-end untuk meminimalkan biaya decoding sambil memberikan performa kelas atas dalam penalaran vision-language. Melalui desain bersama Multi-Matrix Factorization Attention (MFA) dan Attention-FFN Disaggregation (AFD), Step3 mempertahankan efisiensi yang sangat baik di kedua akselerator unggulan dan kelas bawah. Selama prapelatihan, Step3 memproses lebih dari 20T text tokens dan 4T image-text mixed tokens, melintasi lebih dari sepuluh bahasa. Model ini telah mencapai performa state-of-the-art untuk model open-source di berbagai tolok ukur, termasuk matematika, kode, dan multimodalitas....
Total Context:
66K
Max output:
66K
Input:
$
0.57
/ M Tokens
Output:
$
1.42
/ M Tokens

Z.ai
Text Generation
GLM-4.1V-9B-Thinking
Dirilis pada: 4 Jul 2025
GLM-4.1V-9B-Thinking adalah Vision-Language Model (VLM) open-source yang dirilis bersama oleh Zhipu AI dan lab KEG Universitas Tsinghua, dirancang untuk memajukan penalaran multimodal umum. Dibangun berdasarkan model dasar GLM-4-9B-0414, ini memperkenalkan 'paradigma berpikir' dan memanfaatkan Pembelajaran Penguatan dengan Pengambilan Sampel Kurikulum (RLCS) untuk secara signifikan meningkatkan kemampuannya dalam tugas kompleks. Sebagai model parameter 9B, ini mencapai kinerja mutakhir di antara model dengan ukuran serupa, dan kinerjanya sebanding atau bahkan melampaui Qwen-2.5-VL-72B dengan parameter lebih besar 72B pada 18 tolok ukur berbeda. Model ini unggul dalam berbagai tugas yang beragam, termasuk pemecahan masalah STEM, pemahaman video, dan pemahaman dokumen panjang, serta dapat menangani gambar dengan resolusi hingga 4K dan rasio aspek sembarang....
Total Context:
66K
Max output:
66K
Input:
$
0.035
/ M Tokens
Output:
$
0.14
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
Dirilis pada: 24 Mar 2025
Qwen2.5-VL-32B-Instruct adalah model bahasa besar multimodal yang dirilis oleh tim Qwen, bagian dari seri Qwen2.5-VL. Model ini tidak hanya mahir dalam mengenali objek umum tetapi juga sangat mampu menganalisis teks, bagan, ikon, grafis, dan tata letak dalam image. Ini berfungsi sebagai agen visual yang dapat beralasan dan secara dinamis mengarahkan alat, mampu menggunakan komputer dan telepon. Selain itu, model ini dapat secara akurat melokalisasi objek dalam image, dan menghasilkan output terstruktur untuk data seperti faktur dan tabel. Dibandingkan dengan pendahulunya Qwen2-VL, versi ini memiliki kemampuan matematika dan pemecahan masalah yang ditingkatkan melalui pembelajaran penguatan, dengan gaya respons yang disesuaikan agar lebih selaras dengan preferensi manusia...
Total Context:
131K
Max output:
131K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
Dirilis pada: 28 Jan 2025
Qwen2.5-VL adalah model bahasa-visual dalam seri Qwen2.5 yang menunjukkan peningkatan signifikan dalam beberapa aspek: ia memiliki kemampuan pemahaman visual yang kuat, mengenali objek umum sambil menganalisis teks, grafik, dan tata letak dalam Image; ia berfungsi sebagai agen visual yang mampu bernalar dan mengarahkan alat secara dinamis; ia dapat memahami Video lebih dari 1 jam dan menangkap peristiwa utama; ia secara akurat melokalisasi objek dalam Image dengan menghasilkan kotak batas atau titik; dan ia mendukung Output terstruktur untuk data yang dipindai seperti faktur dan formulir. Model ini menunjukkan performa yang sangat baik di berbagai tolok ukur termasuk tugas-tugas Image, Video, dan agen....
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-7B-Instruct
Dirilis pada: 28 Jan 2025
Qwen2.5-VL adalah anggota baru dari seri Qwen, dilengkapi dengan kemampuan pemahaman visual yang kuat. Ini dapat menganalisis Text, diagram, dan tata letak dalam Image, memahami Video panjang, dan menangkap kejadian. Ini mampu bernalar, memanipulasi alat, mendukung lokalisasi objek multi-format, dan menghasilkan Output terstruktur. Model telah dioptimalkan untuk resolusi dinamis dan pelatihan laju bingkai dalam pemahaman Video, dan telah meningkatkan efisiensi encoder visual....
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens
DeepSeek
Text Generation
deepseek-vl2
Dirilis pada: 13 Des 2024
DeepSeek-VL2 adalah model vision-language dengan tenaga ahli campuran (MoE) yang dikembangkan berdasarkan DeepSeekMoE-27B, menggunakan arsitektur MoE yang diaktifkan secara jarang untuk mencapai kinerja superior dengan hanya 4.5B parameter aktif. Model ini unggul dalam berbagai tugas termasuk menjawab pertanyaan visual, pengenalan karakter optik, pemahaman dokumen/tabel/chart, dan penempatan visual. Dibandingkan dengan model dense open-source yang ada dan model berbasis MoE, ia menunjukkan kinerja yang kompetitif atau paling unggul dengan menggunakan parameter aktif yang sama atau lebih sedikit....
Total Context:
4K
Max output:
4K
Input:
$
0.15
/ M Tokens
Output:
$
0.15
/ M Tokens

