GLM-4.6V 現在在 SiliconFlow 上:原生多模態工具使用符合最先進的視覺智慧

2025年12月11日

目錄

總結:GLM-4.6V,Z.ai 最新的多模態大型語言模型,現在在 SiliconFlow 上可以使用。具有 131K 多模態上下文窗口和原生函數調用集成,提供了在視覺理解和推理方面的SoTA性能——無縫地橋接視覺 感知可執行 操作之間的差距。GLM-4.6V 系列為現實世界業務場景中的多模態代理提供統一的技術基礎。立即嘗試 GLM-4.6V,並通過 SiliconFlow APIs 提升您的多模態代理

我們很高興地宣布GLM-4.6VZ.ai最新的為雲和企業級場景設計的多模態基礎模型,現在在SiliconFlow上可以使用。它集成了原生多模態函數調用能力,并在長上下文視覺推理方面表現卓越,直接閉合從感知到理解到執行的環。

現在,通過 SiliconFlow 的 GLM-4.6V API,您可以期待:

  • 經濟實惠的定價: GLM-4.6V $0.30/M tokens(輸入)和 $0.90/M tokens(輸出)

  • 131K 上下文窗口:支持處理長篇行業報告、大量幻燈片或長篇視頻內容

  • 無縫集成:通過 SiliconFlow 的 OpenAI 兼容 API 立即部署,或插入到您的已有代理框架、自動化工具或工作流中。

無論您是在為以下場景構建代理、工作流或工具:

  • 富文本內容創作:將論文、報告和幻燈片轉換為社交媒體和知識庫中的精美帖文

  • 設計到代碼自動化:上傳屏幕截圖/設計以生成像素級 HTML/CSS/JS 代碼

  • 商務文件處理:處理報告以提取指標並合成比較表

  • 視頻內容運營:大規模摘要、標記和提取洞察

通過 SiliconFlow 的生產就緒 API,您可以在幾分鐘內利用 GLM-4.6V 來驅動您的多模態代理——不擔心成本,不擔心工程過載。

讓我們深入了解 SiliconFlow 平台上的現場演示關鍵功能。


關鍵特性及基準性能

在大多數 LLM 流水線中,工具調用仍然是僅限文本:即使是圖像或文件任務,所有內容都必須先轉換為文本,再轉回。這個過程可能會導致信息丟失並增加系統複雜性。GLM-4.6V 通過原生多模態工具調用能力改變了這一點:

  • 多模態輸入:圖像、界面截屏和文件頁面可以直接作為工具參數傳遞,避免手動文本轉換,保留布局和視覺線索。

  • 多模態輸出:模型可以直接解釋工具結果,如搜索頁面、圖表、渲染的網頁截圖或產品圖片,並將它們反饋到推理和最終回應中。

通過閉合從 感知 → 理解 → 執行 的環,GLM-4.6V 支持以下關鍵特性:

  • 富文本內容理解與創作:精確理解複雜的文本圖表表格公式,然後自主調用視覺工具來裁剪生成中的關鍵視覺元素,並審核圖像質量以創作適合社交媒體知識庫的出版準備內容。

  • 視覺網路搜索:識別搜索意圖並自主觸發適當的搜索工具,然後理解並匹配混合視覺文本結果以識別相關信息,並最終運用推理提供結構化視覺豐富的答案。

  • 前端復制與視覺交互:通過識別從截屏提取的佈局、組件和配色方案來生成高保真的 HTML/CSS/JS 代碼,然後讓您進行互動式微調——只需圈選一個元素並告訴它您的需求,例如「讓這個按鈕變大並變成綠色」。

  • 長上下文理解:在一個通過中處理約150頁的文件,200張幻燈片或一小時視頻,借助其 131K 上下文窗口,支持分析財務報告或總結整個足球比賽,同時精確鎖定特定進球事件和時間戳。

例如,當上傳兩份充滿數字表格圖表的財報,GLM-4.6V 顯示出卓越的視覺理解和推理性能。它真正理解了表格和圖表,推理数字,并提出關於收入增長、盈利能力和市場定位的可行性洞察。

SiliconFlow Playground支持文本和圖像輸入。使用 API 服務進行其他類型的輸入。


GLM-4.6V 也在 20+ 主流多模態基準上,如 MMBenchMathVistaOCRBench 中進行了評估,並在開源模型中取得了SoTA的性能。在多模態理解、多模態代理任務和長上下文處理的關鍵能力中,它與或超過可比規模模型,如 Qwen3-VL-235BKimi-VL-A3B-Thinking-2506Step3-321B


技術

GLM-4.6V 為現實世界業務場景中的多模態代理設定技術基礎。 為了達成這項性能,GLM-4.6V 引入了一套全面的創新:

  • 模型架構與長序列建模: GLM-4.6V 持續在長上下文圖像-文本數據上進行預訓練,使用視覺-語言壓縮對齊(受Glyph的啟發)以更好地將視覺編碼與語言語義匹配。

  • 多模世界知識:引入了億級多模態感知和世界知識语料库,以增强基本视觉理解以及跨模态问答的准确性和完整性。

  • 代理数据和 MCP 扩展:通过大规模合成代理训练,GLM-4.6V扩展了模型上下文协议(MCP),通过URL支持多模态处理并使用“草稿 → 图像选择 → 最终修改”工作流程实现端到端交替文本 - 图像输出。

  • RL 多模态代理:工具调用行为集成到统一的RL目标中,通过视觉反馈循环(基于 UI2Code^N)让模型使用渲染结果自我纠正其代码和动作,推进自我改进的多模态代理。


立即開始

  1. 探索:在 SiliconFlow playground 中嘗試 GLM-4.6V

  2. 集成:使用我們的OpenAI兼容API。在 SiliconFlow API 文檔中探索完整的API規範。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.6V",
    "messages": [
        {
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "detail": "auto",
                        "url": "https://tse4.mm.bing.net/th/id/OIP.mDDGH4uc_a7tmLFLJvKXrQHaEo?rs=1&pid=ImgDetMain&o=7&rm=3"
                    }
                },
                {
                    "type": "text",
                    "text": "What is in the picture?"
                }
            ],
            "role": "user"
        }
    ],
    "stream": True,
    "temperature": 1
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

準備好 加速您的人工智能開發了嗎?

準備好 加速您的人工智能開發了嗎?

準備好 加速您的人工智能開發了嗎?

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow

Chinese (Traditional Han, Taiwan)

© 2025 SiliconFlow