關於Qwen2.5-VL-72B-Instruct
Qwen2.5-VL 是 Qwen2.5 系列中的一個視覺-語言模型,在多個方面顯示出顯著的增強:它具有強大的視覺理解能力,能夠在分析文本、圖表和圖像佈局時識別常見物體;它可以作為一個視覺代理,具備推理能力並能動態引導工具;它能夠理解長達 1 小時以上的影片並捕捉關鍵事件;它能通過生成邊界框或點來精確定位圖像中的物體;它支持結構化的掃描數據輸出如發票和表單。該模型在包括圖像、影片和代理任務的各種基準上展示了卓越的表現。
探索 Qwen2.5-VL-72B-Instruct 的先進視覺-語言能力如何解決複雜的現實世界問題。
智慧文件數據擷取
自動化地從各類視覺文件中擷取數據,如發票、表單和圖表,將非結構化的視覺數據轉換為結構化的、有行動力的見解。
使用案例範例:
"處理成千上萬的掃描醫療資訊表格,準確擷取病患基本資料和病史,降低80%的手動數據輸入。"
長視頻內容分析
理解並分析超過1小時的長時間視頻內容,識別關鍵事件、物體和動作,找出相關片段以便快速審查。
使用案例範例:
"監控8小時生產線影片,自動標記產品錯位或安全違規等異常情況,並附上精確的時間戳供審查。"
視覺用戶界面自動化
作為視覺代理與數位界面(網頁,移動設備)互動,根據視覺提示執行複雜任務並自動化工作流程。
使用案例範例:
"透過視覺導航用戶界面來處理退貨和更新訂單狀態,自動化網頁入口的客戶支持任務,消除了手動 API 調用。"
實時物體定位
準確地檢測和定位圖像和視頻流中的物體,生成邊界框或點以進行精確跟蹤和庫存管理。
使用案例範例:
"實施了一個零售倉庫系統來監控貨架庫存,識別庫存不足的物品及其確切位置,提高庫存準確性。"
元數據
規格
狀態
Deprecated
架構
Vision-Language Transformer
經過校準的
否
專家並行
否
總參數
72B
啟用的參數
72B
推理
否
精度
FP8
上下文長度
131K
最大輸出長度
4K
與其他模型比較
看看這個模型與其他模型的對比如何。

Qwen
chat
Qwen3-VL-32B-Instruct
發行日期:2025年10月21日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
發行日期:2025年10月21日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
發行日期:2025年10月15日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.18
/ M Tokens
輸出:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
發行日期:2025年10月15日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.18
/ M Tokens
輸出:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
發行日期:2025年10月4日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.3
/ M Tokens
輸出:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
發行日期:2025年10月4日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.45
/ M Tokens
輸出:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
發行日期:2025年10月5日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.29
/ M Tokens
輸出:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
發行日期:2025年10月11日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.29
/ M Tokens
輸出:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
發行日期:2025年8月13日
$
0.29
/ Video
