關於Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct 是由 Qwen 團隊發佈的多模態大型語言模型,屬於 Qwen2.5-VL 系列。這個模型不僅能夠識別常見的物件,還能高度分析文本、圖表、圖標、圖形和圖片中的佈局。它作為一個視覺代理,能夠推理並動態指導工具,能夠使用電腦和手機。此外,模型能準確地定位圖片中的物體,並為諸如發票和表格等數據生成結構化輸出。與其前身 Qwen2-VL 相比,這個版本通過增強學習提高了數學和問題解決能力,並調整了回應風格以更好地符合人類偏好。
探索 Qwen2.5-VL-32B-Instruct 的多模態智能和自主能力如何解決複雜的視覺和分析挑戰。
文檔數據提取
自動從發票、表單和報告中提取數據,將信息結構化以便於高效處理。
使用案例示例:
"從數千份掃描的發票中提取供應商、商品和總金額,填充數據庫,減少80%的手動輸入時間。"
視覺 UI 自動化
通過視覺理解佈局並指導操作,自動化網頁或移動應用上的複雜互動。
使用案例示例:
"一個 AI agent 瀏覽了一個電子商務網站,添加商品並完成了結賬,適應 UI 變化以實現強大的自動化。"
視頻事件檢測
分析長視頻流,以檢測特定事件、物體或活動,並提供精確的時間戳和摘要。
使用案例示例:
"監控安全錄像,確定未經授權的進入事件,並生成相關視頻片段的警報。"
互動 STEM 學習
為教科書、圖表或手寫筆記中的問題提供逐步解決方案,增強 STEM 教育。
使用案例示例:
"通過分析圖表和方程式,解決了一個具有挑戰性的物理問題,提供了詳細的逐步推導。"
元數據
規格
狀態
Deprecated
架構
Multimodal Transformer
經過校準的
是
專家並行
否
總參數
32B
啟用的參數
32B
推理
否
精度
FP8
上下文長度
131K
最大輸出長度
131K
與其他模型比較
看看這個模型與其他模型的對比如何。

Qwen
chat
Qwen3.6-35B-A3B
發行日期:2026年5月9日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
1.6
/ M Tokens

Qwen
chat
Qwen3.6-27B
發行日期:2026年5月9日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.3
/ M Tokens
輸出:
$
3.2
/ M Tokens

Qwen
chat
Qwen3.5-397B-A17B
發行日期:2026年5月9日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.39
/ M Tokens
輸出:
$
2.34
/ M Tokens

Qwen
chat
Qwen3.5-122B-A10B
發行日期:2026年5月9日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.26
/ M Tokens
輸出:
$
2.08
/ M Tokens

Qwen
chat
Qwen3.5-35B-A3B
發行日期:2026年5月9日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.24
/ M Tokens
輸出:
$
1.8
/ M Tokens

Qwen
chat
Qwen3.5-27B
發行日期:2026年5月9日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.25
/ M Tokens
輸出:
$
2.0
/ M Tokens

Qwen
chat
Qwen3.5-9B
發行日期:2026年5月9日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.1
/ M Tokens
輸出:
$
0.15
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Instruct
發行日期:2025年10月21日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
發行日期:2025年10月21日
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
1.5
/ M Tokens
