GLM-4.5V：世界领先的开源Vision推理模型现已在SiliconFlow上

2025年8月15日

今天，我们很高兴地宣布，GLM-4.5V——全球性能最佳的开源100B规模Vision推理模型——现在已经在SiliconFlow上可用。建立在Z.ai的旗舰Text基础模型GLM-4.5-Air之上，GLM-4.5V旨在增强复杂问题解决能力、长上下文理解和Multimodal智能体。继承GLM-4.1V-Thinking的技术方法，它还强调推进Multimodal推理和实际的现实世界应用。

无论是准确解释图像和视频，从复杂文档中提取见解，还是通过智能Agent自主与图形用户界面交互，GLM-4.5V都能提供强大的性能。

通过SiliconFlow的GLM-4.5V API，您可以期待：

具成本效益的定价：GLM-4.5V $0.14/M tokens（输入）和$0.86/M tokens（输出）。
上下文长度：66K-token Multimodal上下文窗口。
原生支持：工具使用和Image输入。

主要能力和基准性能

通过高效的混合训练，它可以处理多种类型的视觉内容，实现综合的Vision推理，包括：

Image推理：场景理解、复杂多图像分析、空间识别。
Video理解：长视频分段和事件识别。
GUI任务：屏幕阅读、图标识别、桌面操作辅助。
复杂图表和长文档解析：研究报告分析、信息提取。
定位：精确视觉元素定位。

该模型还引入了一种Thinking模式开关，允许用户在快速响应和深入推理之间取得平衡。

展现其强大能力，GLM-4.5V在同规模模型中的表现达到最先进（SOTA）水平，在42个公开的视觉-语言基准中，确认了其在该领域的领先地位。

技术亮点

这个模型具有先进的Multimodal长上下文处理能力，通过多项技术创新来增强Image和Video处理性能：

66K Multimodal长上下文处理：支持Image和Video输入，并利用3D卷积来提升Video处理效率。
双三次插值机制：提高在处理高分辨率和极端纵横比图像时的鲁棒性和能力。
3D旋转位置编码（3D-RoPE）：增强模型对Multimodal信息中三维空间关系的感知和推理。

GLM-4.5V还遵循三阶段训练策略：预训练、监督微调（SFT）和强化学习（RL）：

预训练阶段：大规模交错的Multimodal语料库和长上下文数据用于增强模型处理复杂Image-Text和Video内容的能力。
SFT阶段：引入明确的链式思维格式的训练样本，以提高GLM-4.5V的因果推理和Multimodal理解能力。
RL阶段：通过构建多域奖励体系，结合可验证奖励强化学习（RLVR）和从人类反馈中学习的强化学习（RLHF），实施多域Multimodal课程强化学习，实现STEM问题、Multimodal定位和Agent任务的综合优化。

在SiliconFlow上的实际表现

当提供展示多种产品的电子商务页面时，GLM-4.5V能够识别图像中的折扣和原价，然后准确计算折扣率。

来自我们社区的开发者对GLM-4.5V的反馈非常积极。

现在加入社区，探索更多用例，分享您的成果并获得第一手支持！

立即开始

探索：在SiliconFlow模型广场试用GLM-4.5V。
集成：使用我们的OpenAI兼容API。在SiliconFlow API文档中探索完整的API规范。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())