关于GLM-4.6V
GLM-4.6V在相同参数规模的模型中,在视觉理解方面实现了SOTA(State-of-the-Art)准确性。首次将功能调用能力原生集成到视觉模型架构中,弥合了“视觉感知”和“可执行动作”之间的差距。这为真实商业场景中的Multimodal代理提供了统一的技术基础。此外,视觉上下文窗口已扩展到128k,支持长视频流处理和高分辨率多Image分析。
探索GLM-4.6V的先进视觉理解和功能调用能力如何解决复杂的现实问题。
视觉科学数据分析
解译复杂的科学Image、图表和Video流以提取见解,验证实验并生成视觉总结。
使用案例示例:
"分析了细胞分裂的显微镜Video,识别异常并生成时间序列图表,加速了细胞动力学研究。"
UI/UX代码生成与编辑
从设计Mockup或屏幕截图生成像素级精确的HTML/CSS,然后使用自然语言命令完善和编辑UI。
使用案例示例:
"从Figma截图复制了复杂的Dashboard UI到简洁的React组件,然后通过Text命令调整按钮样式,节省了前端开发时间。"
Multimodal金融智能
处理多样化的金融文件——扫描报告、市Chart、Video简报——以识别趋势、评估风险并执行数据检索操作。
使用案例示例:
"解译公司的年度报告(带有Chart的PDF),并通过功能调用与实时股票Chart进行交叉引用,总结投资机会。"
Agentic视觉系统审计
通过视觉检查界面、日志和示意图来审计复杂系统,识别漏洞,并通过功能调用触发自动修复措施。
使用案例示例:
"通过视觉检查网络流量图和UI元素审计一个Web应用程序的安全性,然后使用功能调用标记WAF中的潜在XSS漏洞。"
元数据
规格
州
Deprecated
建筑
Multimodal MoE
校准的
是
专家混合
是
总参数
106B
激活的参数
106B
推理
不
精度
FP8
上下文长度
131K
最大输出长度
131K
与其他模型进行比较
看看这个模型与其他模型相比表现如何。

Z.ai
GLM-4.7
发行日期:2025年12月23日
上下文长度:
205K
最大输出长度:
205K
Input:
$
0.42
/ M Tokens
Output:
$
2.2
/ M Tokens

Z.ai
chat
GLM-4.6V
发行日期:2025年12月8日
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens

Z.ai
chat
GLM-4.6
发行日期:2025年10月4日
上下文长度:
205K
最大输出长度:
205K
Input:
$
0.39
/ M Tokens
Output:
$
1.9
/ M Tokens

Z.ai
chat
GLM-4.5-Air
发行日期:2025年7月28日
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Z.ai
chat
GLM-4.5V
发行日期:2025年8月13日
上下文长度:
66K
最大输出长度:
66K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Z.ai
chat
GLM-4.1V-9B-Thinking
发行日期:2025年7月4日
上下文长度:
66K
最大输出长度:
66K
Input:
$
0.035
/ M Tokens
Output:
$
0.14
/ M Tokens

Z.ai
chat
GLM-Z1-32B-0414
发行日期:2025年4月18日
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Z.ai
chat
GLM-4-32B-0414
发行日期:2025年4月18日
上下文长度:
33K
最大输出长度:
33K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Z.ai
chat
GLM-Z1-9B-0414
发行日期:2025年4月18日
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.086
/ M Tokens
Output:
$
0.086
/ M Tokens
