關於GLM-4.6V
GLM-4.6V 在與相同參數規模的模型中,實現了視覺理解的 SOTA(State-of-the-Art)準確性。首次將功能調用能力本地整合到視覺模型架構中,彌合了「視覺感知」與「可執行行動」之間的鴻溝。這為現實商務場景中的多模態代理提供了統一的技術基礎。此外,視覺上下文窗口已擴展至 128k,支持長視頻流處理和高解析度多圖像分析。
探索 GLM-4.6V 的先進視覺理解和功能調用能力如何解決複雜的現實世界問題。
視覺科學數據分析
解釋複雜的科學圖像、圖表和視頻流以提取見解,驗證實驗,並生成視覺摘要。
使用案例示例:
"分析細胞分裂的顯微鏡視頻,識別異常並生成時間序列圖表,加速對細胞動態的研究。"
UI/UX 代碼生成與編輯
從設計模型或截圖生成像素精確的 HTML/CSS,然後使用自然語言命令來完善和編輯用戶界面。
使用案例示例:
"從 Figma 截圖中複製了一個複雜的儀表板 UI 到乾淨的 React 組件中,然後通過文本命令調整按鈕樣式,節省了前端開發的時間。"
多模態金融智能
處理多種金融文件——掃描報告、市場圖表、視頻簡報——以識別趨勢、評估風險並執行數據檢索操作。
使用案例示例:
"解釋公司年報(帶圖表的 PDF),通過函數調用與實時股票圖表進行交叉引用,並總結投資機會。"
代理視覺系統審計
通過視覺檢查界面、日誌和圖示來審核複雜系統,識別漏洞,並通過函數調用觸發自動修正操作。
使用案例示例:
"通過視覺檢查網絡流量圖和用戶界面元素來審核 Web 應用程序的安全性,然後使用函數調用標記 WAF 中的潛在 XSS 漏洞。"
元數據
規格
狀態
Deprecated
架構
Multimodal MoE
經過校準的
是
專家並行
是
總參數
106B
啟用的參數
106B
推理
否
精度
FP8
上下文長度
131K
最大輸出長度
131K
與其他模型比較
看看這個模型與其他模型的對比如何。

Z.ai
chat
GLM-5.1
發行日期:2026年4月3日
總上下文:
205K
最大輸出:
131K
輸入:
$
1.4
/ M Tokens
輸出:
$
4.4
/ M Tokens

Z.ai
chat
GLM-5V-Turbo
發行日期:2026年3月30日
總上下文:
205K
最大輸出:
131K
輸入:
$
1.2
/ M Tokens
輸出:
$
4.0
/ M Tokens

Z.ai
chat
GLM-5
發行日期:2026年2月12日
總上下文:
205K
最大輸出:
131K
輸入:
$
0.95
/ M Tokens
輸出:
$
2.55
/ M Tokens

Z.ai
chat
GLM-4.7
發行日期:2025年12月23日
總上下文:
205K
最大輸出:
205K
輸入:
$
0.42
/ M Tokens
輸出:
$
2.2
/ M Tokens

Z.ai
chat
GLM-4.6V
發行日期:2025年12月8日
總上下文:
131K
最大輸出:
131K
輸入:
$
0.3
/ M Tokens
輸出:
$
0.9
/ M Tokens

Z.ai
chat
GLM-4.6
發行日期:2025年10月4日
總上下文:
205K
最大輸出:
205K
輸入:
$
0.39
/ M Tokens
輸出:
$
1.9
/ M Tokens

Z.ai
chat
GLM-4.5-Air
發行日期:2025年7月28日
總上下文:
131K
最大輸出:
131K
輸入:
$
0.14
/ M Tokens
輸出:
$
0.86
/ M Tokens

Z.ai
chat
GLM-4.5V
發行日期:2025年8月13日
總上下文:
66K
最大輸出:
66K
輸入:
$
0.14
/ M Tokens
輸出:
$
0.86
/ M Tokens

Z.ai
chat
GLM-4.1V-9B-Thinking
發行日期:2025年7月4日
總上下文:
66K
最大輸出:
66K
輸入:
$
0.035
/ M Tokens
輸出:
$
0.14
/ M Tokens
