GLM-4.5V:世界领先的开源Vision推理模型现已在SiliconFlow上

2025年8月15日

目录

今天,我们很高兴地宣布,GLM-4.5V——全球性能最佳的开源100B规模Vision推理模型——现在已经在SiliconFlow上可用。建立在Z.ai的旗舰Text基础模型GLM-4.5-Air之上,GLM-4.5V旨在增强复杂问题解决能力、长上下文理解和Multimodal智能体。继承GLM-4.1V-Thinking的技术方法,它还强调推进Multimodal推理和实际的现实世界应用。

无论是准确解释图像和视频,从复杂文档中提取见解,还是通过智能Agent自主与图形用户界面交互,GLM-4.5V都能提供强大的性能。

通过SiliconFlow的GLM-4.5V API,您可以期待:

  • 具成本效益的定价:GLM-4.5V $0.14/M tokens(输入)和$0.86/M tokens(输出)。

  • 上下文长度:66K-token Multimodal上下文窗口。

  • 原生支持:工具使用和Image输入。

主要能力和基准性能

通过高效的混合训练,它可以处理多种类型的视觉内容,实现综合的Vision推理,包括:

  • Image推理:场景理解、复杂多图像分析、空间识别。

  • Video理解:长视频分段和事件识别。

  • GUI任务:屏幕阅读、图标识别、桌面操作辅助。

  • 复杂图表和长文档解析:研究报告分析、信息提取。

  • 定位:精确视觉元素定位。

该模型还引入了一种Thinking模式开关,允许用户在快速响应和深入推理之间取得平衡。

展现其强大能力,GLM-4.5V在同规模模型中的表现达到最先进(SOTA)水平在42个公开的视觉-语言基准中,确认了其在该领域的领先地位。

技术亮点

这个模型具有先进的Multimodal长上下文处理能力,通过多项技术创新来增强Image和Video处理性能:

  • 66K Multimodal长上下文处理:支持Image和Video输入,并利用3D卷积来提升Video处理效率。

  • 双三次插值机制:提高在处理高分辨率和极端纵横比图像时的鲁棒性和能力。

  • 3D旋转位置编码(3D-RoPE):增强模型对Multimodal信息中三维空间关系的感知和推理。

GLM-4.5V还遵循三阶段训练策略预训练监督微调(SFT)强化学习(RL):

  • 预训练阶段:大规模交错的Multimodal语料库和长上下文数据用于增强模型处理复杂Image-Text和Video内容的能力。

  • SFT阶段:引入明确的链式思维格式的训练样本,以提高GLM-4.5V的因果推理和Multimodal理解能力。

  • RL阶段:通过构建多域奖励体系,结合可验证奖励强化学习(RLVR)从人类反馈中学习的强化学习(RLHF),实施多域Multimodal课程强化学习,实现STEM问题、Multimodal定位和Agent任务的综合优化。

在SiliconFlow上的实际表现

当提供展示多种产品的电子商务页面时,GLM-4.5V能够识别图像中的折扣和原价,然后准确计算折扣率。

来自我们社区的开发者对GLM-4.5V的反馈非常积极。

现在加入社区,探索更多用例,分享您的成果并获得第一手支持!

立即开始

  1. 探索:在SiliconFlow模型广场试用GLM-4.5V

  2. 集成:使用我们的OpenAI兼容API。在SiliconFlow API文档中探索完整的API规范。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())
import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())
import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

准备好扩展了吗?联系我们获取企业部署、定制集成和GLM-4.5V的批量定价。

准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?