GLM-4.6V Sekarang di SiliconFlow: Penggunaan Alat Multimodal Asli Bertemu dengan Kecerdasan Visual SoTA

11 Des 2025

Daftar Isi

TL;DR: GLM-4.6V, model bahasa besar multimodal terbaru dari Z.ai, kini tersedia di SiliconFlow. Menampilkan 131K jendela konteks multimodal dan integrasi pemanggilan fungsi asli, model ini memberikan performa SoTA dalam pemahaman dan penalaran visual—menghubungkan kesenjangan antara "persepsi visual" dan "aksi eksekusi" dengan lancar. Seri GLM-4.6V menyediakan fondasi teknis yang terpadu untuk agen multimodal dalam skenario bisnis dunia nyata. Cobalah GLM-4.6V sekarang dan tingkatkan agen multimodal Anda dengan API SiliconFlow.

Kami senang mengumumkan GLM-4.6V, model fondasi multimodal terbaru dari Z.ai yang dirancang untuk skenario cloud dan kelas enterprise, kini tersedia di SiliconFlow. Ini mengintegrasikan kemampuan pemanggilan fungsi multimodal asli dan unggul dalam penalaran visual konteks panjang, secara langsung menutup loop dari persepsi hingga pemahaman hingga eksekusi.

Sekarang, melalui API GLM-4.6V dari SiliconFlow, Anda dapat mengharapkan:

Harga Ramah Anggaran: GLM-4.6V $0,30/M token (input) dan $0,90/M token (output)
Jendela Konteks 131K: Memungkinkan pemrosesan laporan industri panjang, dek slide ekstensif, atau konten video panjang
Integrasi Tanpa Hambatan: Langsung gunakan melalui API yang kompatibel dengan OpenAI dari SiliconFlow, atau sambungkan ke kerangka kerja agenik yang sudah ada, alat otomasi, atau alur kerja Anda.

Apakah Anda sedang membangun agen, alur kerja, atau alat untuk:

Pembuatan Konten Teks-Rich: Konversi makalah, laporan, dan slide menjadi postingan yang dipoles untuk media sosial dan basis pengetahuan
Otomatisasi Desain-ke-Kode: Unggah tangkapan layar atau desain untuk menghasilkan kode HTML/CSS/JS tingkat piksel
Pengolahan Dokumen Bisnis: Proses laporan untuk mengekstrak metrik dan mensintesis tabel komparatif
Operasi Konten Video: Ringkas, beri tag, dan ekstrak wawasan dalam skala besar

Melalui API siap produksi dari SiliconFlow, Anda dapat memanfaatkan GLM-4.6V untuk menggerakkan agen multimodal Anda dalam beberapa menit — tanpa kekhawatiran biaya, tanpa kendala rekayasa.

Mari terjun ke dalam kemampuan utama dengan demo langsung dari Platform SiliconFlow.

Fitur Utama & Kinerja Tolok Ukur

Dalam sebagian besar jalur LLM, pemanggilan alat masih berbasis teks saja: bahkan untuk tugas gambar atau dokumen, segala sesuatu harus dikonversi menjadi teks terlebih dahulu, kemudian dikonversi kembali. Proses ini berpotensi menyebabkan kehilangan informasi dan meningkatkan kompleksitas sistem. GLM-4.6V mengubah ini dengan kemampuan pemanggilan alat multimodal asli:

Input Multimodal: Gambar, tangkapan layar UI, dan halaman dokumen dapat diteruskan langsung sebagai argumen alat, menghindari konversi teks manual dan mempertahankan tata letak dan petunjuk visual.
Output Multimodal: Model dapat langsung menafsirkan hasil alat seperti halaman pencarian, grafik, tangkapan layar web yang dirender, atau gambar produk, dan memberikan kembali ke dalam penalarannya dan respons akhir.

Dengan menutup loop dari persepsi → pemahaman → eksekusi, GLM-4.6V mendukung fitur-fitur kunci berikut:

Pemahaman dan Pembuatan Konten Teks-Rich: Memahami dengan akurat teks kompleks, grafik, tabel, dan rumus, kemudian secara mandiri memanggil alat visual untuk memotong visual kunci saat generasi, dan mengaudit kualitas gambar untuk menyusun konten yang siap publikasi yang sempurna untuk media sosial & basis pengetahuan.
Pencarian Web Visual: Mengenali niat pencarian dan secara mandiri memicu alat pencarian yang tepat, kemudian memahami dan menyelaraskan hasil teks-visual campuran untuk mengidentifikasi informasi yang relevan, dan akhirnya melakukan penalaran untuk memberikan jawaban yang terstruktur dan kaya visual.
Replikasi Frontend & Interaksi Visual: Mencapai replikasi tingkat piksel dengan mengidentifikasi tata letak, komponen, dan skema warna dari tangkapan layar untuk menghasilkan kode HTML/CSS/JS yang berkualitas tinggi, kemudian membiarkan Anda menyempurnakannya secara interaktif—hanya lingkari elemen dan beri tahu apa yang Anda inginkan, seperti "buat tombol ini lebih besar dan ubah menjadi hijau."
Pemahaman Konteks Panjang: Memproses ~150 halaman dokumen, 200 slide, atau satu jam video dalam satu kali pengulangan dengan jendela konteks 131K-nya, memungkinkan tugas seperti menganalisis laporan keuangan atau merangkum keseluruhan pertandingan sepak bola sambil mengidentifikasi peristiwa gol dan waktu tertentu.

Misalnya, ketika mengunggah dua laporan keuangan yang penuh dengan angka, tabel, dan grafik, GLM-4.6V menunjukkan pemahaman visual dan kinerja penalaran yang luar biasa. Itu benar-benar memahami tabel dan grafik, melakukan penalaran atas angka-angka, dan menampilkan wawasan yang dapat ditindaklanjuti mengenai pertumbuhan pendapatan, profitabilitas, dan posisi pasar.

SiliconFlow Playground mendukung input teks & gambar. Gunakan layanan API untuk jenis input lainnya.

GLM-4.6V juga telah dievaluasi secara luas di lebih dari 20+ tolok ukur multimodal mainstream termasuk MMBench, MathVista, dan OCRBench, mencapai kinerja SoTA di antara model open-source. Model ini sebanding atau bahkan lebih baik dibandingkan dengan model berskala setara lainnya seperti Qwen3-VL-235B, Kimi-VL-A3B-Thinking-2506, dan Step3-321B dalam kemampuan kunci: pemahaman multimodal, tugas agenik multimodal, dan pemrosesan konteks panjang.

Teknik

GLM-4.6V menetapkan dasar teknis untuk agen multimodal dalam skenario bisnis dunia nyata. Untuk mencapai kinerja ini, GLM-4.6V memperkenalkan rangkaian inovasi yang komprehensif:

Arsitektur model & pemodelan urutan panjang: GLM-4.6V terus dilatih prapemroses pada data gambar–teks konteks panjang, dengan penyelarasan kompresi visual–bahasa (terinspirasi oleh Glyph) untuk menghubungkan pengkodean visual dengan semantik linguistik dengan lebih baik.
Pengetahuan dunia multimodal: Sebuah korpus persepsi multimodal dan pengetahuan dunia berskala miliar diperkenalkan untuk meningkatkan pemahaman visual dasar dan akurasi serta kelengkapan QA lintas-modal.
Data agenik & ekstensi MCP: Melalui pelatihan agenik sintetis berskala besar, GLM-4.6V memperluas Model Context Protocol (MCP) dengan penanganan multimodal berbasis URL dan output teks–gambar yang terjalin dari ujung ke ujung menggunakan alur kerja “Draft → Image Selection → Final Polish”.
RL untuk agen multimodal: Perilaku pemanggilan alat diintegrasikan ke dalam tujuan RL terpadu, dan lingkaran umpan balik visual (dibangun di atas UI2Code^N) memungkinkan model menggunakan hasil hasil untuk memperbaiki kode dan tindakannya, mendorong menuju agen multimodal yang memperbaiki diri.

Mulai Segera

Jelajahi: Coba GLM-4.6V di playground SiliconFlow.
Integrasikan: Gunakan API yang kompatibel dengan OpenAI kami. Jelajahi spesifikasi API lengkap dalam dokumentasi API SiliconFlow.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.6V",
    "messages": [
        {
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "detail": "auto",
                        "url": "https://tse4.mm.bing.net/th/id/OIP.mDDGH4uc_a7tmLFLJvKXrQHaEo?rs=1&pid=ImgDetMain&o=7&rm=3"
                    }
                },
                {
                    "type": "text",
                    "text": "What is in the picture?"
                }
            ],
            "role": "user"
        }
    ],
    "stream": True,
    "temperature": 1
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)