Qwen2.5-VL-72B-Instruct
Tentang Qwen2.5-VL-72B-Instruct
Qwen2.5-VL adalah model bahasa-visual dalam seri Qwen2.5 yang menunjukkan peningkatan signifikan dalam beberapa aspek: ia memiliki kemampuan pemahaman visual yang kuat, mengenali objek umum sambil menganalisis teks, grafik, dan tata letak dalam Image; ia berfungsi sebagai agen visual yang mampu bernalar dan mengarahkan alat secara dinamis; ia dapat memahami Video lebih dari 1 jam dan menangkap peristiwa utama; ia secara akurat melokalisasi objek dalam Image dengan menghasilkan kotak batas atau titik; dan ia mendukung Output terstruktur untuk data yang dipindai seperti faktur dan formulir. Model ini menunjukkan performa yang sangat baik di berbagai tolok ukur termasuk tugas-tugas Image, Video, dan agen.
Jelajahi bagaimana kemampuan bahasa Vision tingkat lanjut dari Qwen2.5-VL-72B-Instruct menyelesaikan masalah kompleks dunia nyata.
Ekstraksi Data Dokumen Cerdas
Otomatisasi ekstraksi data dari dokumen visual yang beragam seperti faktur, formulir, dan bagan, mengubah data visual yang tidak terstruktur menjadi wawasan terstruktur dan dapat ditindaklanjuti.
Contoh Penggunaan Kasus:
"Memproses ribuan formulir pendaftaran perawatan kesehatan yang dipindai, secara akurat mengekstraksi data demografi pasien dan riwayat medis, mengurangi entri data manual sebesar 80%."
Analisis Konten Video Panjang
Memahami dan menganalisis konten Video yang panjang (lebih dari 1 jam), mengidentifikasi peristiwa, objek, dan tindakan penting, dengan cepat menunjuk segmen yang relevan untuk ditinjau.
Contoh Penggunaan Kasus:
"Memantau rekaman jalur produksi selama 8 jam, secara otomatis menandai anomali seperti produk yang salah urutan atau pelanggaran keselamatan dengan stempel waktu yang tepat untuk ditinjau."
Otomasi Antarmuka Pengguna Visual
Bertindak sebagai agen visual untuk berinteraksi dengan antarmuka digital (web, seluler), melakukan tugas-tugas kompleks dan mengotomatisasi alur kerja berdasarkan petunjuk visual.
Contoh Penggunaan Kasus:
"Mengotomatiskan tugas dukungan pelanggan di portal web dengan menavigasi antarmuka pengguna secara visual untuk memproses pengembalian dan memperbarui status pesanan, menghilangkan panggilan API manual."
Lokalisasi Objek Real-time
Secara akurat mendeteksi dan melokalisasi objek dalam Image dan aliran Video, menghasilkan kotak pembatas atau titik untuk pelacakan dan manajemen inventaris yang tepat.
Contoh Penggunaan Kasus:
"Menerapkan sistem gudang ritel untuk memantau stok rak, mengidentifikasi barang-barang dengan stok rendah dan lokasi pastinya, meningkatkan akurasi inventaris."
Metadata
Spesifikasi
Negara
Deprecated
Arsitektur
Vision-Language Transformer
Terkalibrasi
Tidak
Campuran Ahli
Tidak
Total Parameter
72B
Parameter yang Diaktifkan
72B
Penalaran
Tidak
Precision
FP8
Text panjang konteks
131K
Max Tokens
4K
Bandingkan dengan Model Lain
Lihat bagaimana model ini dibandingkan dengan yang lain.

Qwen
chat
Qwen3-VL-32B-Instruct
Dirilis pada: 21 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
Dirilis pada: 21 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
Dirilis pada: 15 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
Dirilis pada: 15 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
Dirilis pada: 4 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
Dirilis pada: 4 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
Dirilis pada: 5 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
Dirilis pada: 11 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
Dirilis pada: 13 Agu 2025
$
0.29
/ Video
