关于Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct 是由 Qwen 团队发布的多人模式大型语言模型,属于 Qwen2.5-VL 系列。这个模型不仅擅长识别常见物体,还具有分析 Text、图表、图标、图形和 Image 中布局的能力。它作为一个视觉代理,可以进行推理并动态指示工具,能够使用电脑和电话。此外,该模型可以精确定位 Image 中的对象,并为诸如发票和表格之类的数据生成结构化 Output。与之前的版本 Qwen2-VL 相比,经过强化学习调整后的这种版本增强了数学解题能力,并优化了应答风格以更好地符合人类的偏好。
探索 Qwen2.5-VL-32B-Instruct 的 Multimodal 智能和代理能力如何解决复杂的视觉和分析挑战。
文档数据提取
自动从发票、表单和报告中提取数据,结构化信息以提高处理效率。
用例示例:
"从数千份扫描的发票中提取了供应商、物品和总金额,填充数据库并将人工录入时间减少了80%。"
视觉界面自动化
通过视觉理解布局和指导操作来自动化网络或移动应用的复杂交互。
用例示例:
"AI代理导航到电子商务网站、添加物品并完成结账,适应界面变化实现稳健的自动化。"
Video事件检测
分析长视频流以检测特定事件、物体或活动,并提供精确的时间戳和摘要。
用例示例:
"监控安全录像,找出未经授权的访问实例并生成相关Video剪辑的警报。"
互动STEM学习
为教科书、图表或手写笔记中的问题提供逐步解决方案,增强STEM教育。
用例示例:
"通过分析图表和方程解决了一个具有挑战性的物理问题,提供了详细的逐步推导。"
元数据
规格
州
Deprecated
建筑
Multimodal Transformer
校准的
是
专家混合
不
总参数
32B
激活的参数
32B
推理
不
精度
FP8
上下文长度
131K
最大输出长度
131K
与其他模型进行比较
看看这个模型与其他模型相比表现如何。

Qwen
chat
Qwen3.6-35B-A3B
发行日期:2026年4月17日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.6
/ M Tokens

Qwen
chat
Qwen3.6-27B
发行日期:2026年4月23日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.3
/ M Tokens
Output:
$
3.2
/ M Tokens

Qwen
chat
Qwen3.5-397B-A17B
发行日期:2026年4月24日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.39
/ M Tokens
Output:
$
2.34
/ M Tokens

Qwen
chat
Qwen3.5-122B-A10B
发行日期:2026年4月24日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.26
/ M Tokens
Output:
$
2.08
/ M Tokens

Qwen
chat
Qwen3.5-35B-A3B
发行日期:2026年2月25日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.24
/ M Tokens
Output:
$
1.8
/ M Tokens

Qwen
chat
Qwen3.5-27B
发行日期:2026年4月24日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.25
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3.5-9B
发行日期:2026年4月24日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.1
/ M Tokens
Output:
$
0.15
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Instruct
发行日期:2025年10月21日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
发行日期:2025年10月21日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens
