Qwen2.5-VL-32B-Instruct
Tentang Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct adalah model bahasa besar multimodal yang dirilis oleh tim Qwen, bagian dari seri Qwen2.5-VL. Model ini tidak hanya mahir dalam mengenali objek umum tetapi juga sangat mampu menganalisis teks, bagan, ikon, grafis, dan tata letak dalam image. Ini berfungsi sebagai agen visual yang dapat beralasan dan secara dinamis mengarahkan alat, mampu menggunakan komputer dan telepon. Selain itu, model ini dapat secara akurat melokalisasi objek dalam image, dan menghasilkan output terstruktur untuk data seperti faktur dan tabel. Dibandingkan dengan pendahulunya Qwen2-VL, versi ini memiliki kemampuan matematika dan pemecahan masalah yang ditingkatkan melalui pembelajaran penguatan, dengan gaya respons yang disesuaikan agar lebih selaras dengan preferensi manusia
Jelajahi bagaimana kecerdasan multimodal dan kemampuan agenik Qwen2.5-VL-32B-Instruct menyelesaikan tantangan visual dan analitis yang kompleks.
Ekstraksi Data Dokumen
Otomatiskan ekstraksi data dari faktur, formulir, dan laporan, menyusun informasi untuk pemrosesan yang efisien.
Contoh Kasus Penggunaan:
"Menarik vendor, item, dan jumlah total dari ribuan faktur yang dipindai, mengisi database dan mengurangi waktu entri manual sebesar 80%."
Otomasi Antarmuka Pengguna Visual
Otomatiskan interaksi kompleks pada aplikasi web atau mobile dengan memahami tata letak secara visual dan mengarahkan tindakan.
Contoh Kasus Penggunaan:
"Agen AI menavigasi situs e-commerce, menambahkan barang, dan menyelesaikan pembayaran, menyesuaikan dengan perubahan UI untuk otomasi yang kuat."
Deteksi Acara Video
Menganalisis aliran video panjang untuk mendeteksi acara, objek, atau aktivitas tertentu dengan penanda waktu dan ringkasan yang tepat.
Contoh Kasus Penggunaan:
"Memantau rekaman keamanan, menemukan instance akses tidak sah dan menghasilkan peringatan dengan Video klip yang relevan."
Pembelajaran STEM Interaktif
Menyediakan solusi langkah demi langkah untuk masalah dalam buku teks, diagram, atau catatan tulisan tangan, meningkatkan pendidikan STEM.
Contoh Kasus Penggunaan:
"Menyelesaikan masalah fisika yang menantang dengan menganalisis diagram dan persamaan, memberikan derivasi yang mendetail langkah demi langkah."
Metadata
Spesifikasi
Negara
Deprecated
Arsitektur
Multimodal Transformer
Terkalibrasi
Ya
Campuran Ahli
Tidak
Total Parameter
32B
Parameter yang Diaktifkan
32B
Penalaran
Tidak
Precision
FP8
Text panjang konteks
131K
Max Tokens
131K
Bandingkan dengan Model Lain
Lihat bagaimana model ini dibandingkan dengan yang lain.

Qwen
chat
Qwen3-VL-32B-Instruct
Dirilis pada: 21 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
Dirilis pada: 21 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
Dirilis pada: 15 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
Dirilis pada: 15 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
Dirilis pada: 4 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
Dirilis pada: 4 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
Dirilis pada: 5 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
Dirilis pada: 11 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
Dirilis pada: 13 Agu 2025
$
0.29
/ Video
