Qwen3-VL-235B-A22B-Instruct
Tentang Qwen3-VL-235B-A22B-Instruct
Qwen3-VL-235B-A22B-Instruct adalah model Vision-bahasa Mixture-of-Experts (MoE) dengan 235 miliar parameter, dengan 22 miliar parameter yang diaktifkan. Ini adalah versi Qwen3-VL-235B-A22B yang disetel untuk instruksi dan selaras untuk aplikasi Chat.
Jelajahi bagaimana kemampuan bahasa Vision-lanjutan Qwen3-VL-235B-A22B-Instruct dan penalaran Multimodal dapat menyelesaikan masalah kompleks di dunia nyata.
Otomasi UI AI
Otomatisasi tugas UI kompleks di aplikasi web dan seluler dengan memahami antarmuka secara visual dan melaksanakan tindakan.
Contoh Kasus Penggunaan:
"Secara otomatis menavigasi situs web e-commerce baru, menambahkan barang ke keranjang, dan menyelesaikan pembelian dengan memahami petunjuk visual dan berinteraksi dengan elemen UI, tanpa panggilan API eksplisit."
Penghasilan Kode Visual
Mengubah desain visual (sketsa, mockup, atau demonstrasi video) langsung menjadi komponen web atau diagram yang berfungsi.
Contoh Kasus Penggunaan:
"Mengubah wireframe yang digambar tangan dari halaman web menjadi kode HTML/CSS/JS yang responsif, termasuk elemen interaktif, yang mempercepat alur kerja pengembangan front-end secara signifikan."
Analitik Video Lanjutan
Analisis rekaman video yang panjang untuk menemukan acara, objek, atau tindakan tertentu, menghasilkan rangkuman dan wawasan dengan pengindeksan tingkat detik.
Contoh Kasus Penggunaan:
"Memproses umpan kamera keamanan selama 8 jam, mengidentifikasi semua kejadian akses tidak sah, melacak individu tertentu, dan menghasilkan laporan berstempel waktu dengan bukti visual."
AI Dokumen Multimodal
Mengekstrak, menganalisis, dan bernalar tentang informasi dari dokumen yang kompleks dan kaya visual, termasuk Image yang dipindai, laporan, dan skema teknik.
Contoh Kasus Penggunaan:
"Menganalisis cetak biru teknik multi-halaman, mengekstrak daftar komponen, mengidentifikasi hubungan spasial antara bagian, dan menandai potensi ketidakkonsistenan desain berdasarkan data visual dan Textual."
Penalaran Spasial untuk Robotika
Memungkinkan sistem AI untuk memahami dan berinteraksi dengan lingkungan fisik dengan secara akurat memahami posisi objek, orientasi, dan hubungan spasial.
Contoh Kasus Penggunaan:
"Mengarahkan lengan robot untuk dengan tepat mengambil dan menempatkan objek berbentuk tidak beraturan dari wadah yang berantakan, beradaptasi dengan sudut pandang yang berbeda dan penyumbatan parsial secara real-time."
Metadata
Spesifikasi
Negara
Deprecated
Arsitektur
Mixture of Experts
Terkalibrasi
Ya
Campuran Ahli
Ya
Total Parameter
235B
Parameter yang Diaktifkan
22B
Penalaran
Tidak
Precision
FP8
Text panjang konteks
262K
Max Tokens
262K
Bandingkan dengan Model Lain
Lihat bagaimana model ini dibandingkan dengan yang lain.

Qwen
chat
Qwen3-VL-32B-Instruct
Dirilis pada: 21 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
Dirilis pada: 21 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
Dirilis pada: 15 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
Dirilis pada: 15 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
Dirilis pada: 4 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
Dirilis pada: 4 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
Dirilis pada: 5 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
Dirilis pada: 11 Okt 2025
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
Dirilis pada: 13 Agu 2025
$
0.29
/ Video
