关于Qwen2.5-VL-72B-Instruct
Qwen2.5-VL 是 Qwen2.5 系列中的一种 Vision-语言模型,在多个方面显示出显著增强:它具有强大的视觉理解能力,能够识别常见对象,同时分析 Image 中的文本、图表和布局;它作为一个能够推理和动态指引工具的视觉代理;它能够理解超过1小时长的视频并捕捉关键事件;它通过生成边界框或点准确定位 Image 中的物体;并支持扫描数据(如发票和表单)的结构化 Output。该模型在包括 Image、Video 和代理任务的各个基准测试中表现出色。
探索Qwen2.5-VL-72B-Instruct的先进Vision-语言能力如何解决复杂的实际问题。
智能文档数据提取
自动提取各种视觉文件(如发票、表格和图表)中的数据,将非结构化视觉数据转换为结构化、可操作的洞察。
用例示例:
"处理了数千份扫描的医疗接收表格,准确提取患者的人口统计信息和病史,将手动数据输入减少了80%。"
长视频内容分析
理解和分析超过1小时的长视频内容,识别关键事件、对象和动作,快速审阅定位相关片段。
用例示例:
"监控了8小时的生产线视频,自动标记异于常态的事件,如产品未对齐或安全违规,并提供准确的时间戳用于审查。"
视觉界面自动化
作为视觉代理与数字界面(网络、移动设备)进行交互,执行复杂任务并根据视觉提示自动化工作流。
用例示例:
"通过视觉导航用户界面,在网络门户上自动处理客户支持任务,如退货处理和更新订单状态,消除了人工API调用。"
实时对象定位
在Image和Video流中准确检测和定位对象,生成边界框或点用于精确跟踪和库存管理。
用例示例:
"实施了零售仓库系统以监控货架库存,识别库存不足的项目及其确切位置,提高库存准确性。"
元数据
规格
州
Deprecated
建筑
Vision-Language Transformer
校准的
不
专家混合
不
总参数
72B
激活的参数
72B
推理
不
精度
FP8
上下文长度
131K
最大输出长度
4K
与其他模型进行比较
看看这个模型与其他模型相比表现如何。

Qwen
chat
Qwen3.6-35B-A3B
发行日期:2026年4月17日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.6
/ M Tokens

Qwen
chat
Qwen3.6-27B
发行日期:2026年4月23日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.3
/ M Tokens
Output:
$
3.2
/ M Tokens

Qwen
chat
Qwen3.5-397B-A17B
发行日期:2026年4月24日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.39
/ M Tokens
Output:
$
2.34
/ M Tokens

Qwen
chat
Qwen3.5-122B-A10B
发行日期:2026年4月24日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.26
/ M Tokens
Output:
$
2.08
/ M Tokens

Qwen
chat
Qwen3.5-35B-A3B
发行日期:2026年2月25日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.24
/ M Tokens
Output:
$
1.8
/ M Tokens

Qwen
chat
Qwen3.5-27B
发行日期:2026年4月24日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.25
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3.5-9B
发行日期:2026年4月24日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.1
/ M Tokens
Output:
$
0.15
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Instruct
发行日期:2025年10月21日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
发行日期:2025年10月21日
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens
