今天,我们很高兴地宣布,GLM-4.5V——全球性能最佳的开源100B规模Vision推理模型——现在已经在SiliconFlow上可用。建立在Z.ai的旗舰Text基础模型GLM-4.5-Air之上,GLM-4.5V旨在增强复杂问题解决能力、长上下文理解和Multimodal智能体。继承GLM-4.1V-Thinking的技术方法,它还强调推进Multimodal推理和实际的现实世界应用。
无论是准确解释图像和视频,从复杂文档中提取见解,还是通过智能Agent自主与图形用户界面交互,GLM-4.5V都能提供强大的性能。
通过SiliconFlow的GLM-4.5V API,您可以期待:
具成本效益的定价:GLM-4.5V $0.14/M tokens(输入)和$0.86/M tokens(输出)。
上下文长度:66K-token Multimodal上下文窗口。
原生支持:工具使用和Image输入。
主要能力和基准性能
通过高效的混合训练,它可以处理多种类型的视觉内容,实现综合的Vision推理,包括:
Image推理:场景理解、复杂多图像分析、空间识别。
Video理解:长视频分段和事件识别。
GUI任务:屏幕阅读、图标识别、桌面操作辅助。
复杂图表和长文档解析:研究报告分析、信息提取。
定位:精确视觉元素定位。
该模型还引入了一种Thinking模式开关,允许用户在快速响应和深入推理之间取得平衡。
展现其强大能力,GLM-4.5V在同规模模型中的表现达到最先进(SOTA)水平,在42个公开的视觉-语言基准中,确认了其在该领域的领先地位。

技术亮点
这个模型具有先进的Multimodal长上下文处理能力,通过多项技术创新来增强Image和Video处理性能:
66K Multimodal长上下文处理:支持Image和Video输入,并利用3D卷积来提升Video处理效率。
双三次插值机制:提高在处理高分辨率和极端纵横比图像时的鲁棒性和能力。
3D旋转位置编码(3D-RoPE):增强模型对Multimodal信息中三维空间关系的感知和推理。
GLM-4.5V还遵循三阶段训练策略:预训练、监督微调(SFT)和强化学习(RL):
预训练阶段:大规模交错的Multimodal语料库和长上下文数据用于增强模型处理复杂Image-Text和Video内容的能力。
SFT阶段:引入明确的链式思维格式的训练样本,以提高GLM-4.5V的因果推理和Multimodal理解能力。
RL阶段:通过构建多域奖励体系,结合可验证奖励强化学习(RLVR)和从人类反馈中学习的强化学习(RLHF),实施多域Multimodal课程强化学习,实现STEM问题、Multimodal定位和Agent任务的综合优化。

在SiliconFlow上的实际表现
当提供展示多种产品的电子商务页面时,GLM-4.5V能够识别图像中的折扣和原价,然后准确计算折扣率。

来自我们社区的开发者对GLM-4.5V的反馈非常积极。
现在加入社区,探索更多用例,分享您的成果并获得第一手支持!
立即开始
探索:在SiliconFlow模型广场试用GLM-4.5V。
集成:使用我们的OpenAI兼容API。在SiliconFlow API文档中探索完整的API规范。
import requests
url = "https://api.siliconflow.com/v1/chat/completions"
payload = {
"model": "zai-org/GLM-4.5V",
"max_tokens": 512,
"enable_thinking": True,
"thinking_budget": 4096,
"min_p": 0.05,
"temperature": 0.7,
"top_p": 0.7,
"top_k": 50,
"frequency_penalty": 0.5,
"n": 1,
"messages": [
{
"content": "how are you",
"role": "user"
}
]
}
headers = {
"Authorization": "Bearer <token>",
"Content-Type": "application/json"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())import requests
url = "https://api.siliconflow.com/v1/chat/completions"
payload = {
"model": "zai-org/GLM-4.5V",
"max_tokens": 512,
"enable_thinking": True,
"thinking_budget": 4096,
"min_p": 0.05,
"temperature": 0.7,
"top_p": 0.7,
"top_k": 50,
"frequency_penalty": 0.5,
"n": 1,
"messages": [
{
"content": "how are you",
"role": "user"
}
]
}
headers = {
"Authorization": "Bearer <token>",
"Content-Type": "application/json"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())import requests
url = "https://api.siliconflow.com/v1/chat/completions"
payload = {
"model": "zai-org/GLM-4.5V",
"max_tokens": 512,
"enable_thinking": True,
"thinking_budget": 4096,
"min_p": 0.05,
"temperature": 0.7,
"top_p": 0.7,
"top_k": 50,
"frequency_penalty": 0.5,
"n": 1,
"messages": [
{
"content": "how are you",
"role": "user"
}
]
}
headers = {
"Authorization": "Bearer <token>",
"Content-Type": "application/json"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())准备好扩展了吗?联系我们获取企业部署、定制集成和GLM-4.5V的批量定价。