GLM-4.6V 現在在 SiliconFlow 上：原生多模態工具使用符合最先進的視覺智慧

2025年12月11日

總結：GLM-4.6V，Z.ai 最新的多模態大型語言模型，現在在 SiliconFlow 上可以使用。具有 131K 多模態上下文窗口和原生函數調用集成，提供了在視覺理解和推理方面的SoTA性能——無縫地橋接視覺感知和可執行 操作之間的差距。GLM-4.6V 系列為現實世界業務場景中的多模態代理提供統一的技術基礎。立即嘗試 GLM-4.6V，並通過 SiliconFlow APIs 提升您的多模態代理。

我們很高興地宣布GLM-4.6V，Z.ai最新的為雲和企業級場景設計的多模態基礎模型，現在在SiliconFlow上可以使用。它集成了原生多模態函數調用能力，并在長上下文視覺推理方面表現卓越，直接閉合從感知到理解到執行的環。

現在，通過 SiliconFlow 的 GLM-4.6V API，您可以期待：

經濟實惠的定價： GLM-4.6V $0.30/M tokens（輸入）和 $0.90/M tokens（輸出）
131K 上下文窗口：支持處理長篇行業報告、大量幻燈片或長篇視頻內容
無縫集成：通過 SiliconFlow 的 OpenAI 兼容 API 立即部署，或插入到您的已有代理框架、自動化工具或工作流中。

無論您是在為以下場景構建代理、工作流或工具：

富文本內容創作：將論文、報告和幻燈片轉換為社交媒體和知識庫中的精美帖文
設計到代碼自動化：上傳屏幕截圖/設計以生成像素級 HTML/CSS/JS 代碼
商務文件處理：處理報告以提取指標並合成比較表
視頻內容運營：大規模摘要、標記和提取洞察

通過 SiliconFlow 的生產就緒 API，您可以在幾分鐘內利用 GLM-4.6V 來驅動您的多模態代理——不擔心成本，不擔心工程過載。

讓我們深入了解 SiliconFlow 平台上的現場演示關鍵功能。

關鍵特性及基準性能

在大多數 LLM 流水線中，工具調用仍然是僅限文本：即使是圖像或文件任務，所有內容都必須先轉換為文本，再轉回。這個過程可能會導致信息丟失並增加系統複雜性。GLM-4.6V 通過原生多模態工具調用能力改變了這一點：

多模態輸入：圖像、界面截屏和文件頁面可以直接作為工具參數傳遞，避免手動文本轉換，保留布局和視覺線索。
多模態輸出：模型可以直接解釋工具結果，如搜索頁面、圖表、渲染的網頁截圖或產品圖片，並將它們反饋到推理和最終回應中。

通過閉合從 感知 → 理解 → 執行 的環，GLM-4.6V 支持以下關鍵特性：

富文本內容理解與創作：精確理解複雜的文本、圖表、表格和公式，然後自主調用視覺工具來裁剪生成中的關鍵視覺元素，並審核圖像質量以創作適合社交媒體和知識庫的出版準備內容。
視覺網路搜索：識別搜索意圖並自主觸發適當的搜索工具，然後理解並匹配混合視覺文本結果以識別相關信息，並最終運用推理提供結構化、視覺豐富的答案。
前端復制與視覺交互：通過識別從截屏提取的佈局、組件和配色方案來生成高保真的 HTML/CSS/JS 代碼，然後讓您進行互動式微調——只需圈選一個元素並告訴它您的需求，例如「讓這個按鈕變大並變成綠色」。
長上下文理解：在一個通過中處理約150頁的文件，200張幻燈片或一小時視頻，借助其 131K 上下文窗口，支持分析財務報告或總結整個足球比賽，同時精確鎖定特定進球事件和時間戳。

例如，當上傳兩份充滿數字、表格和圖表的財報，GLM-4.6V 顯示出卓越的視覺理解和推理性能。它真正理解了表格和圖表，推理数字，并提出關於收入增長、盈利能力和市場定位的可行性洞察。

SiliconFlow Playground支持文本和圖像輸入。使用 API 服務進行其他類型的輸入。

GLM-4.6V 也在 20+ 主流多模態基準上，如 MMBench、MathVista 和 OCRBench 中進行了評估，並在開源模型中取得了SoTA的性能。在多模態理解、多模態代理任務和長上下文處理的關鍵能力中，它與或超過可比規模模型，如 Qwen3-VL-235B、Kimi-VL-A3B-Thinking-2506 和 Step3-321B。

技術

GLM-4.6V 為現實世界業務場景中的多模態代理設定技術基礎。 為了達成這項性能，GLM-4.6V 引入了一套全面的創新：

模型架構與長序列建模： GLM-4.6V 持續在長上下文圖像-文本數據上進行預訓練，使用視覺-語言壓縮對齊（受Glyph的啟發）以更好地將視覺編碼與語言語義匹配。
多模世界知識：引入了億級多模態感知和世界知識语料库，以增强基本视觉理解以及跨模态问答的准确性和完整性。
代理数据和 MCP 扩展：通过大规模合成代理训练，GLM-4.6V扩展了模型上下文协议（MCP），通过URL支持多模态处理并使用“草稿 → 图像选择 → 最终修改”工作流程实现端到端交替文本 - 图像输出。
RL 多模态代理：工具调用行为集成到统一的RL目标中，通过视觉反馈循环（基于 UI2Code^N）让模型使用渲染结果自我纠正其代码和动作，推进自我改进的多模态代理。

立即開始

探索：在 SiliconFlow playground 中嘗試 GLM-4.6V。
集成：使用我們的OpenAI兼容API。在 SiliconFlow API 文檔中探索完整的API規範。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.6V",
    "messages": [
        {
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "detail": "auto",
                        "url": "https://tse4.mm.bing.net/th/id/OIP.mDDGH4uc_a7tmLFLJvKXrQHaEo?rs=1&pid=ImgDetMain&o=7&rm=3"
                    }
                },
                {
                    "type": "text",
                    "text": "What is in the picture?"
                }
            ],
            "role": "user"
        }
    ],
    "stream": True,
    "temperature": 1
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.6V",
    "messages": [
        {
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "detail": "auto",
                        "url": "https://tse4.mm.bing.net/th/id/OIP.mDDGH4uc_a7tmLFLJvKXrQHaEo?rs=1&pid=ImgDetMain&o=7&rm=3"
                    }
                },
                {
                    "type": "text",
                    "text": "What is in the picture?"
                }
            ],
            "role": "user"
        }
    ],
    "stream": True,
    "temperature": 1
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.6V",
    "messages": [
        {
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "detail": "auto",
                        "url": "https://tse4.mm.bing.net/th/id/OIP.mDDGH4uc_a7tmLFLJvKXrQHaEo?rs=1&pid=ImgDetMain&o=7&rm=3"
                    }
                },
                {
                    "type": "text",
                    "text": "What is in the picture?"
                }
            ],
            "role": "user"
        }
    ],
    "stream": True,
    "temperature": 1
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)