GLM-4.6V
Tentang GLM-4.6V
GLM-4.6V mencapai akurasi SOTA (State-of-the-Art) dalam pemahaman visual di antara model dengan skala parameter yang sama. Untuk pertama kalinya, ini secara asli mengintegrasikan kemampuan Function Call ke dalam arsitektur model visual, menjembatani kesenjangan antara "Visual Perception" dan "Executable Action." Ini menyediakan dasar teknis yang terpadu untuk Agent Multimodal di skenario bisnis dunia nyata. Selain itu, jendela konteks visual telah diperluas menjadi 128k, mendukung pemrosesan aliran video panjang dan analisis multi-Image beresolusi tinggi.
Jelajahi bagaimana pemahaman visual lanjutan dan kemampuan pemanggilan fungsi GLM-4.6V dapat menyelesaikan masalah kompleks di dunia nyata.
Analisis Data Ilmiah Visual
Menginterpretasikan Image ilmiah yang kompleks, bagan, dan aliran Video untuk memperoleh wawasan, memvalidasi eksperimen, dan menghasilkan rangkuman visual.
Contoh Kasus Penggunaan:
"Menganalisis Video mikroskopi tentang pembelahan sel, mengidentifikasi anomali dan menghasilkan bagan deret waktu, mempercepat penelitian tentang dinamika seluler."
Pembuatan & Pengeditan Kode UI/UX
Menghasilkan HTML/CSS yang akurat hingga piksel dari desain atau tangkapan layar, kemudian menyempurnakan dan mengedit UI menggunakan perintah bahasa alami.
Contoh Kasus Penggunaan:
"Mereplikasi UI dasbor yang kompleks dari tangkapan layar Figma ke dalam komponen React yang bersih, kemudian menyesuaikan gaya tombol melalui perintah Text, menghemat jam pengembangan frontend."
Kecerdasan Keuangan Multimodal
Memproses dokumen keuangan yang beragam—laporan yang dipindai, bagan pasar, pengarahan Video—untuk mengidentifikasi tren, menilai risiko, dan melaksanakan tindakan pengambilan data.
Contoh Kasus Penggunaan:
"Menginterpretasikan laporan tahunan perusahaan (PDF dengan bagan), menyilangkan informasi dengan bagan saham langsung melalui panggilan fungsi, dan merangkum peluang investasi."
Audit Sistem Visual Agen
Mengaudit sistem yang kompleks dengan memeriksa secara visual antarmuka, log, dan skema, mengidentifikasi kerentanan, dan memicu tindakan remediasi otomatis melalui panggilan fungsi.
Contoh Kasus Penggunaan:
"Mengaudit keamanan aplikasi web dengan memeriksa secara visual grafik lalu lintas jaringan dan elemen UI, kemudian menggunakan panggilan fungsi untuk menandai potensi kerentanan XSS di WAF."
Metadata
Spesifikasi
Negara
Deprecated
Arsitektur
Multimodal MoE
Terkalibrasi
Ya
Campuran Ahli
Ya
Total Parameter
106B
Parameter yang Diaktifkan
106B
Penalaran
Tidak
Precision
FP8
Text panjang konteks
131K
Max Tokens
131K
Bandingkan dengan Model Lain
Lihat bagaimana model ini dibandingkan dengan yang lain.

Z.ai
GLM-4.7
Dirilis pada: 23 Des 2025
Total Context:
205K
Max output:
205K
Input:
$
0.42
/ M Tokens
Output:
$
2.2
/ M Tokens

Z.ai
chat
GLM-4.6V
Dirilis pada: 8 Des 2025
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens

Z.ai
chat
GLM-4.6
Dirilis pada: 4 Okt 2025
Total Context:
205K
Max output:
205K
Input:
$
0.39
/ M Tokens
Output:
$
1.9
/ M Tokens

Z.ai
chat
GLM-4.5-Air
Dirilis pada: 28 Jul 2025
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Z.ai
chat
GLM-4.5V
Dirilis pada: 13 Agu 2025
Total Context:
66K
Max output:
66K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Z.ai
chat
GLM-4.1V-9B-Thinking
Dirilis pada: 4 Jul 2025
Total Context:
66K
Max output:
66K
Input:
$
0.035
/ M Tokens
Output:
$
0.14
/ M Tokens

Z.ai
chat
GLM-Z1-32B-0414
Dirilis pada: 18 Apr 2025
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Z.ai
chat
GLM-4-32B-0414
Dirilis pada: 18 Apr 2025
Total Context:
33K
Max output:
33K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Z.ai
chat
GLM-Z1-9B-0414
Dirilis pada: 18 Apr 2025
Total Context:
131K
Max output:
131K
Input:
$
0.086
/ M Tokens
Output:
$
0.086
/ M Tokens
