目录

总结:GLM-4.6V,Z.ai 最新的多模态大型语言模型,现在在SiliconFlow上可用。它具有131K多模态上下文窗口和本机功能调用集成,能够在视觉理解和推理方面提供最先进的性能——完美地弥合了“视觉感知”和“可执行行动”之间的差距。GLM-4.6V 系列为现实世界商业场景中的多模态代理提供了统一的技术基础。立即尝试GLM-4.6V,通过SiliconFlow APIs提升您的多模态代理。
我们很高兴地宣布GLM-4.6V,Z.ai设计的最新多模态基础模型,适用于云和企业级场景,现在在SiliconFlow上可用。它集成了本地多模态功能调用能力,并在长上下文视觉推理方面表现出色,直接闭合了从感知到理解到执行的循环。
现在,通过 SiliconFlow 的GLM-4.6V API,您可以期待:
经济实惠的定价: GLM-4.6V $0.30/百万 tokens(输入)和 $0.90/百万 tokens(输出)
131K 上下文窗口:支持处理冗长的行业报告、广泛的幻灯片演示或长时视频内容
无缝集成:通过 SiliconFlow 的 OpenAI 兼容 API 即刻部署,或接入您现有的代理框架、自动化工具或工作流程。
不论您是在为以下方面构建代理、工作流程或工具:
丰富文本内容创建: 将论文、报告和幻灯片转换为社交媒体和知识库的精美帖子
设计到代码自动化: 上传截图/设计以生成像素级 HTML/CSS/JS 代码
商业文档处理:处理报告以提取指标并合成对比表格
视频内容操作:大规模摘要、标记和提取见解
通过 SiliconFlow 的生产就绪 API,您可以在几分钟内使用 GLM-4.6V 为您的多模态代理提供动力——无论费用问题,还是工程难题。
让我们通过 SiliconFlow 平台的现场演示深入了解关键功能。
关键功能及基准性能
在大多数 LLM 管道中,工具调用仍然是仅限 Text 的:即使对于 Image 或文档任务,一切都必须首先转换为 Text,然后再转换回去。此过程可能导致信息丢失并增加系统复杂性。GLM-4.6V 通过原生多模态工具调用能力改变了这一现状:
多模态 Input:Image、UI 截图和文档页面可以作为工具参数直接传递,避免手动 Text 转换,并保留布局和视觉线索。
多模态 Output:模型可以直接解释工具结果,如搜索页面、图表、渲染的网页截图或产品 Image,并将其反馈到推理和最终响应中。
通过实现从简单到深入理解再到执行的闭环,GLM-4.6V 支持以下关键功能:
丰富文本内容理解和创建:准确理解复杂的Text、图表、表格和公式,然后自主调用视觉工具以在生成过程中裁剪关键视觉元素,并审核 image 质量以创建适合社交媒体和知识库的出版准备内容。
视觉网页搜索:识别搜索意图并自主触发适当的搜索工具,然后理解和对齐混合的视-文本结果以识别相关信息,最终执行推理以提供结构化、视觉丰富的答案。
前端复制与视觉交互:通过识别截图中的布局、组件和配色方案进行像素级复制以生成高保真HTML/CSS/JS 代码,然后让您通过圈选一个元素并告知所需效果进行交互性完善,如“把这个按钮变大并改成绿色。”
长上下文理解:能在单次通过中处理~150页文档、200张幻灯片或一小时视频,利用其131K上下文窗口,实现如分析财务报告或总结整个足球比赛同时定位特定进球事件和时间戳等任务。
例如,当上传两个充满数字、表格和图表的财务报告时,GLM-4.6V 展示出了卓越的视觉理解和推理性能。它真正理解了表格和图表,在数字上进行推理,并浮现出有关收入增长、盈利能力和市场定位的可执行见解。

SiliconFlow 模型广场支持 Text 和 Image 输入。使用 API 服务处理其他输入类型。
GLM-4.6V 还在包括MMBench、MathVista和OCRBench在内的20+主流多模态基准上进行评估,在开源模型中实现了最先进的性能。它在关键能力上与或超过了类似规模的模型,如Qwen3-VL-235B、Kimi-VL-A3B-Thinking-2506和Step3-321B:多模态理解、多模态代理任务和长上下文处理。

技术
GLM-4.6V 为现实世界商业场景中的多模态代理奠定了技术基础。为了实现这一性能,GLM-4.6V 引入了一整套创新:
模型架构及长序列建模:GLM-4.6V 持续在长上下文图像–Text 数据上进行预训练,通过视觉–语言压缩对齐(受 Glyph 启发)更好地将视觉编码与语言语义结合。
多模态世界知识:引入了十亿规模多模态感知和世界知识语料库,以提高基本的视觉理解以及跨模态问答的准确性和完整性。
代理数据及 MCP 扩展:通过大规模合成代理训练,GLM-4.6V 扩展了模型上下文协议(MCP),支持基于 URL 的多模态处理和端到端的交错 Text–Image 输出,采用“草稿→Image选择→最终润色”工作流程。
多模态代理的强化学习:工具调用行为被集成到统一的强化学习目标中,并通过视觉反馈回路(基于 UI2Code^N 构建)让模型使用渲染结果自我修正其代码和操作,推动自我改进的多模态代理。
立即开始
探索:在 SiliconFlow Playground中尝试GLM-4.6V。
集成:使用我们兼容 OpenAI 的 API。浏览 SiliconFlow API 文档以了解完整 API 规格。
