Qwen2.5-VL-7B-Instruct
Tentang Qwen2.5-VL-7B-Instruct
Qwen2.5-VL adalah anggota baru dari seri Qwen, dilengkapi dengan kemampuan pemahaman visual yang kuat. Ini dapat menganalisis Text, diagram, dan tata letak dalam Image, memahami Video panjang, dan menangkap kejadian. Ini mampu bernalar, memanipulasi alat, mendukung lokalisasi objek multi-format, dan menghasilkan Output terstruktur. Model telah dioptimalkan untuk resolusi dinamis dan pelatihan laju bingkai dalam pemahaman Video, dan telah meningkatkan efisiensi encoder visual.
Jelajahi bagaimana kemampuan pemahaman visual dan agenik Qwen2.5-VL-7B-Instruct yang kuat dapat diterapkan untuk memecahkan masalah nyata yang kompleks di berbagai bidang.
Kecerdasan Dokumen Otomatis
Ekstrak data terstruktur dari dokumen visual yang beragam seperti faktur, formulir, dan laporan, termasuk Text, tabel, dan tata letak, dengan akurasi tinggi dan Output multi-forma.
Contoh Kasus Penggunaan:
"Memproses 10.000 faktur yang dipindai, mengekstraksi pemasok, item baris, dan jumlah total ke dalam format JSON, mengurangi entri data manual hingga 90% untuk sebuah perusahaan keuangan."
Deteksi Kejadian Video Cerdas
Menganalisis konten Video berdurasi panjang (lebih dari 1 jam) untuk mengidentifikasi, menemukan, dan memberi tanda waktu pada kejadian, objek, atau tindakan tertentu, memungkinkan moderasi konten, pengawasan, atau analisis olahraga yang efisien.
Contoh Kasus Penggunaan:
"Memantau rekaman keamanan selama 2 jam, menemukan semua kejadian percobaan akses yang tidak sah dan menghasilkan kotak pembatas di sekitar penyusup dengan stempel waktu yang tepat untuk sistem keamanan."
Otomasi UI Berbasis AI
Bertindak sebagai agen visual untuk berinteraksi dengan dan menguji aplikasi (web, seluler, desktop) dengan memahami elemen UI, menavigasi alur kerja, dan mengidentifikasi anomali visual atau kesalahan fungsional.
Contoh Kasus Penggunaan:
"Otomatisasi pengujian ujung ke ujung untuk aplikasi web e-commerce yang kompleks, memverifikasi secara visual fungsi tombol, pengiriman formulir, dan konsistensi tata letak di berbagai ukuran layar, mengidentifikasi bug UI kritis."
Asisten Visual Kontekstual
Memberikan bantuan real-time dengan menginterpretasikan layar pengguna, grafik, atau diagram secara visual, dan kemudian melaksanakan tugas multi-langkah yang kompleks dengan berinteraksi dengan alat perangkat lunak atau antarmuka web.
Contoh Kasus Penggunaan:
"Memandu pengguna melalui alur kerja analisis data yang kompleks dalam lingkungan ilmu data berbasis Python, menafsirkan data mereka saat ini secara visual, menyarankan langkah selanjutnya, dan menjalankan operasi Pandas serta generasi grafik Matplotlib tertentu."
Anotasi Image Presisi
Mengidentifikasi dan melokalisasi objek secara akurat dalam Image (misalnya, citra satelit, pemindaian medis) dengan menghasilkan kotak pembatas yang presisi, titik, dan Output atribut terstruktur untuk dataset besar.
Contoh Kasus Penggunaan:
"Memberi anotasi ribuan Image drone udara untuk perencanaan urban, dengan tepat menggambarkan jejak bangunan, jaringan jalan, dan ruang hijau dengan kotak pembatas dan skor kepercayaan, mempercepat penilaian infrastruktur."
Metadata
Spesifikasi
Negara
Deprecated
Arsitektur
Terkalibrasi
Tidak
Campuran Ahli
Tidak
Total Parameter
7B
Parameter yang Diaktifkan
7B
Penalaran
Tidak
Precision
FP8
Text panjang konteks
33K
Max Tokens
4K
Bandingkan dengan Model Lain
Lihat bagaimana model ini dibandingkan dengan yang lain.

Qwen
chat
Qwen3-VL-32B-Instruct
Dirilis pada: 21 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
Dirilis pada: 21 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
Dirilis pada: 15 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
Dirilis pada: 15 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
Dirilis pada: 4 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
Dirilis pada: 4 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
Dirilis pada: 5 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
Dirilis pada: 11 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
Dirilis pada: 13 Agu 2025
$
0.29
/ Video
