GLM-4.5V: Model Penalaran Vision Sumber Terbuka Terdepan di Dunia Kini di SiliconFlow

15 Agu 2025

Daftar Isi

Hari ini, kami dengan bangga memperkenalkan GLM-4.5V — model penalaran visi open-source skala 100B terbaik di dunia — kini tersedia di SiliconFlow. Dibangun di atas model fondasi teks unggulan Z.ai GLM-4.5-Air, GLM-4.5V dirancang untuk mendukung pemecahan masalah kompleks, pemahaman konteks panjang dan agen multimodal. Mengikuti pendekatan teknis GLM-4.1V-Thinking, ini juga menekankan peningkatan penalaran multimodal dan aplikasi praktis di dunia nyata.

Apakah itu menafsirkan gambar dan video dengan akurat, mengekstraksi wawasan dari dokumen kompleks, atau berinteraksi secara otonom dengan antarmuka pengguna grafis melalui agen cerdas, GLM-4.5V memberikan kinerja yang tangguh.

Dengan API GLM-4.5V SiliconFlow, anda dapat mengharapkan:

Harga Efektif Biaya: GLM-4.5V $0,14/M tokens (input) dan $0,86/M tokens (output).
Panjang Konteks: Jendela konteks multimodal 66K-token.
Dukungan Native: Penggunaan Alat dan Input Image.

Kapabilitas Utama & Kinerja Tolok Ukur

Melalui pelatihan hibrid yang efisien, dapat menangani berbagai jenis konten visual, memungkinkan penalaran visi yang komprehensif, termasuk:

Penalaran Image: Pemahaman adegan, analisis multi-gambar yang kompleks, pengenalan spasial.
Pemahaman Video: Segmentasi video panjang dan pengenalan kejadian.
Tugas GUI: Pembacaan layar, pengenalan ikon, bantuan operasi desktop.
Parsing Diagram Kompleks & Dokumen Panjang: Analisis laporan penelitian, ekstraksi informasi.
Pelokalan: Penempatan elemen visual yang tepat.

Model ini juga memperkenalkan saklar Mode Thinking, memungkinkan pengguna untuk menyeimbangkan antara respons cepat dan penalaran mendalam.

Menunjukkan kemampuannya yang kuat, GLM-4.5V mencapai kinerja state-of-the-art (SOTA) di antara model skala yang sama di 42 tolok ukur bahasa-visi publik, mengonfirmasi posisi terdepannya di lapangan.

Sorotan Teknis

Model ini memiliki kemampuan pemrosesan konteks panjang multimodal tingkat lanjut dengan beberapa inovasi teknis untuk meningkatkan kinerja pemrosesan gambar dan video:

Pemrosesan konteks panjang multimodal 66K: Mendukung input image dan video dan memanfaatkan konvolusi 3D untuk meningkatkan efisiensi pemrosesan video.
Mekanisme interpolasi bikubik: Meningkatkan kekokohan dan kemampuan dalam menangani gambar resolusi tinggi dan rasio aspek ekstrem.
Penyandian Posisi yang Diputar 3D (3D-RoPE): Memperkuat persepsi dan penalaran model tentang hubungan spasial tiga dimensi dalam informasi multimodal.

GLM-4.5V juga mengikuti strategi pelatihan tiga tahap: pra-pelatihan, fine-tuning terawasi (SFT) dan pembelajaran penguatan (RL):

Tahap Pra-pelatihan: Korporasi multimodal berselang-seling skala besar dan data konteks panjang digunakan untuk meningkatkan kemampuan model memproses konten gambar-teks dan video yang kompleks.
Tahap SFT: Contoh pelatihan berformat rangkaian-pemikiran eksplisit diperkenalkan untuk meningkatkan penalaran kausal GLM-4.5V dan kemampuan pemahaman multimodal.
Tahap RL: Diterapkan pembelajaran penguatan kurikulum multimodal multidomain dengan membangun sistem penghargaan multidomain yang menggabungkan pembelajaran penguatan berbasis penghargaan yang dapat diverifikasi (RLVR) dan pembelajaran penguatan dari umpan balik manusia (RLHF), memungkinkan optimasi komprehensif dalam masalah STEM, pelokalan multimodal dan tugas agensi.

Kinerja Dunia Nyata di SiliconFlow

Ketika diberikan halaman e-commerce yang menampilkan beberapa produk, GLM-4.5V dapat mengidentifikasi harga diskon dan asli dalam gambar, kemudian menghitung tingkat diskon dengan akurat.

Umpan balik pengembang tentang GLM-4.5V dari komunitas kami sangat positif.

Sekarang bergabunglah dengan komunitas untuk menjelajahi lebih banyak kasus penggunaan, bagikan hasil Anda dan dapatkan dukungan langsung!

Mulai Sekarang

Jelajahi: Coba GLM-4.5V di SiliconFlow Playground.
Integrasikan: Gunakan API kami yang kompatibel dengan OpenAI. Jelajahi spesifikasi API lengkap di dokumentasi API SiliconFlow.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())