目錄
總結:GLM-4.6V,Z.ai 最新的多模態大型語言模型,現在在 SiliconFlow 上可以使用。具有 131K 多模態上下文窗口和原生函數調用集成,提供了在視覺理解和推理方面的SoTA性能——無縫地橋接視覺 感知和可執行 操作之間的差距。GLM-4.6V 系列為現實世界業務場景中的多模態代理提供統一的技術基礎。立即嘗試 GLM-4.6V,並通過 SiliconFlow APIs 提升您的多模態代理。
我們很高興地宣布GLM-4.6V,Z.ai最新的為雲和企業級場景設計的多模態基礎模型,現在在SiliconFlow上可以使用。它集成了原生多模態函數調用能力,并在長上下文視覺推理方面表現卓越,直接閉合從感知到理解到執行的環。
現在,通過 SiliconFlow 的 GLM-4.6V API,您可以期待:
經濟實惠的定價: GLM-4.6V $0.30/M tokens(輸入)和 $0.90/M tokens(輸出)
131K 上下文窗口:支持處理長篇行業報告、大量幻燈片或長篇視頻內容
無縫集成:通過 SiliconFlow 的 OpenAI 兼容 API 立即部署,或插入到您的已有代理框架、自動化工具或工作流中。
無論您是在為以下場景構建代理、工作流或工具:
富文本內容創作:將論文、報告和幻燈片轉換為社交媒體和知識庫中的精美帖文
設計到代碼自動化:上傳屏幕截圖/設計以生成像素級 HTML/CSS/JS 代碼
商務文件處理:處理報告以提取指標並合成比較表
視頻內容運營:大規模摘要、標記和提取洞察
通過 SiliconFlow 的生產就緒 API,您可以在幾分鐘內利用 GLM-4.6V 來驅動您的多模態代理——不擔心成本,不擔心工程過載。
讓我們深入了解 SiliconFlow 平台上的現場演示關鍵功能。
關鍵特性及基準性能
在大多數 LLM 流水線中,工具調用仍然是僅限文本:即使是圖像或文件任務,所有內容都必須先轉換為文本,再轉回。這個過程可能會導致信息丟失並增加系統複雜性。GLM-4.6V 通過原生多模態工具調用能力改變了這一點:
多模態輸入:圖像、界面截屏和文件頁面可以直接作為工具參數傳遞,避免手動文本轉換,保留布局和視覺線索。
多模態輸出:模型可以直接解釋工具結果,如搜索頁面、圖表、渲染的網頁截圖或產品圖片,並將它們反饋到推理和最終回應中。
通過閉合從 感知 → 理解 → 執行 的環,GLM-4.6V 支持以下關鍵特性:
富文本內容理解與創作:精確理解複雜的文本、圖表、表格和公式,然後自主調用視覺工具來裁剪生成中的關鍵視覺元素,並審核圖像質量以創作適合社交媒體和知識庫的出版準備內容。
視覺網路搜索:識別搜索意圖並自主觸發適當的搜索工具,然後理解並匹配混合視覺文本結果以識別相關信息,並最終運用推理提供結構化、視覺豐富的答案。
前端復制與視覺交互:通過識別從截屏提取的佈局、組件和配色方案來生成高保真的 HTML/CSS/JS 代碼,然後讓您進行互動式微調——只需圈選一個元素並告訴它您的需求,例如「讓這個按鈕變大並變成綠色」。
長上下文理解:在一個通過中處理約150頁的文件,200張幻燈片或一小時視頻,借助其 131K 上下文窗口,支持分析財務報告或總結整個足球比賽,同時精確鎖定特定進球事件和時間戳。
例如,當上傳兩份充滿數字、表格和圖表的財報,GLM-4.6V 顯示出卓越的視覺理解和推理性能。它真正理解了表格和圖表,推理数字,并提出關於收入增長、盈利能力和市場定位的可行性洞察。

SiliconFlow Playground支持文本和圖像輸入。使用 API 服務進行其他類型的輸入。
GLM-4.6V 也在 20+ 主流多模態基準上,如 MMBench、MathVista 和 OCRBench 中進行了評估,並在開源模型中取得了SoTA的性能。在多模態理解、多模態代理任務和長上下文處理的關鍵能力中,它與或超過可比規模模型,如 Qwen3-VL-235B、Kimi-VL-A3B-Thinking-2506 和 Step3-321B。

技術
GLM-4.6V 為現實世界業務場景中的多模態代理設定技術基礎。 為了達成這項性能,GLM-4.6V 引入了一套全面的創新:
模型架構與長序列建模: GLM-4.6V 持續在長上下文圖像-文本數據上進行預訓練,使用視覺-語言壓縮對齊(受Glyph的啟發)以更好地將視覺編碼與語言語義匹配。
多模世界知識:引入了億級多模態感知和世界知識语料库,以增强基本视觉理解以及跨模态问答的准确性和完整性。
代理数据和 MCP 扩展:通过大规模合成代理训练,GLM-4.6V扩展了模型上下文协议(MCP),通过URL支持多模态处理并使用“草稿 → 图像选择 → 最终修改”工作流程实现端到端交替文本 - 图像输出。
RL 多模态代理:工具调用行为集成到统一的RL目标中,通过视觉反馈循环(基于 UI2Code^N)让模型使用渲染结果自我纠正其代码和动作,推进自我改进的多模态代理。
立即開始
探索:在 SiliconFlow playground 中嘗試 GLM-4.6V。
集成:使用我們的OpenAI兼容API。在 SiliconFlow API 文檔中探索完整的API規範。

