Qwen2.5-VL-72B-Instruct

Referensi API

Tentang Qwen2.5-VL-72B-Instruct

Qwen2.5-VL adalah model bahasa-visual dalam seri Qwen2.5 yang menunjukkan peningkatan signifikan dalam beberapa aspek: ia memiliki kemampuan pemahaman visual yang kuat, mengenali objek umum sambil menganalisis teks, grafik, dan tata letak dalam Image; ia berfungsi sebagai agen visual yang mampu bernalar dan mengarahkan alat secara dinamis; ia dapat memahami Video lebih dari 1 jam dan menangkap peristiwa utama; ia secara akurat melokalisasi objek dalam Image dengan menghasilkan kotak batas atau titik; dan ia mendukung Output terstruktur untuk data yang dipindai seperti faktur dan formulir. Model ini menunjukkan performa yang sangat baik di berbagai tolok ukur termasuk tugas-tugas Image, Video, dan agen.

Kasus Penggunaan

Jelajahi bagaimana kemampuan bahasa Vision tingkat lanjut dari Qwen2.5-VL-72B-Instruct menyelesaikan masalah kompleks dunia nyata.

Ekstraksi Data Dokumen Cerdas

Otomatisasi ekstraksi data dari dokumen visual yang beragam seperti faktur, formulir, dan bagan, mengubah data visual yang tidak terstruktur menjadi wawasan terstruktur dan dapat ditindaklanjuti.

Contoh Penggunaan Kasus:

"Memproses ribuan formulir pendaftaran perawatan kesehatan yang dipindai, secara akurat mengekstraksi data demografi pasien dan riwayat medis, mengurangi entri data manual sebesar 80%."

Analisis Konten Video Panjang

Memahami dan menganalisis konten Video yang panjang (lebih dari 1 jam), mengidentifikasi peristiwa, objek, dan tindakan penting, dengan cepat menunjuk segmen yang relevan untuk ditinjau.

Contoh Penggunaan Kasus:

"Memantau rekaman jalur produksi selama 8 jam, secara otomatis menandai anomali seperti produk yang salah urutan atau pelanggaran keselamatan dengan stempel waktu yang tepat untuk ditinjau."

Otomasi Antarmuka Pengguna Visual

Bertindak sebagai agen visual untuk berinteraksi dengan antarmuka digital (web, seluler), melakukan tugas-tugas kompleks dan mengotomatisasi alur kerja berdasarkan petunjuk visual.

Contoh Penggunaan Kasus:

"Mengotomatiskan tugas dukungan pelanggan di portal web dengan menavigasi antarmuka pengguna secara visual untuk memproses pengembalian dan memperbarui status pesanan, menghilangkan panggilan API manual."

Lokalisasi Objek Real-time

Secara akurat mendeteksi dan melokalisasi objek dalam Image dan aliran Video, menghasilkan kotak pembatas atau titik untuk pelacakan dan manajemen inventaris yang tepat.

Contoh Penggunaan Kasus:

"Menerapkan sistem gudang ritel untuk memantau stok rak, mengidentifikasi barang-barang dengan stok rendah dan lokasi pastinya, meningkatkan akurasi inventaris."

Metadata

Buat di

28 Jan 2025