約Qwen2.5-VL-72B-Instruct
Qwen2.5-VLはQwen2.5シリーズのビジョン-言語モデルであり、いくつかの側面で大きな向上を示しています。それは共通のオブジェクトを認識しながらテキスト、チャート、およびレイアウトを分析する強力な視覚理解能力を備えており、推論し、動的にツールを指示できる視覚エージェントとして機能します。また、1時間以上のビデオを理解し、重要なイベントをキャプチャすることができます。さらに、画像の中のオブジェクトを正確に特定し、バウンディングボックスやポイントを生成して局在化します。請求書やフォームのようなスキャンデータのための構造化された出力をサポートしており、Image、Video、およびエージェントタスクを含むさまざまなベンチマークで優れたパフォーマンスを示します。
Qwen2.5-VL-72B-Instruct の高度なVision-言語能力がどのように複雑で現実の問題を解決するかを探る。
スマートドキュメントデータ抽出
請求書、フォーム、チャートのような多様な視覚文書からデータ抽出を自動化し、非構造化の視覚データを構造化された実行可能な洞察に変換します。
ユースケースの例:
"数千枚のスキャンされた健康管理のインテイクフォームを処理し、患者の人口統計や医療履歴を正確に抽出して手動データ入力を80%削減しました。"
長時間ビデオコンテンツ分析
1時間以上の長時間のVideoコンテンツを理解・分析し、重要なイベント、オブジェクト、アクションを識別して、迅速なレビューのために関連するセグメントを特定します。
ユースケースの例:
"8時間の製造ライン映像を監視し、ずれた製品や安全違反などの異常を自動的にフラグし、正確なタイムスタンプでレビュー用に記録しました。"
ビジュアルUI自動化
Webやモバイルのデジタルインターフェースと視覚エージェントとして対話し、視覚的ヒントに基づいて複雑なタスクを実行し、ワークフローを自動化します。
ユースケースの例:
"UIを視覚的にナビゲートして返品を処理し、注文状況を更新することで、ウェブポータルでの顧客サポートタスクを自動化し、手動API呼び出しを排除しました。"
リアルタイムオブジェクトローカリゼーション
ImageおよびVideoストリーム内のオブジェクトを正確に検出および局在化し、正確な追跡および在庫管理のためにバウンディングボックスやポイントを生成します。
ユースケースの例:
"棚在庫を監視し、在庫が少ないアイテムとその正確な位置を特定することにより在庫の正確性を向上させる小売倉庫システムを実装しました。"
メタデータ
仕様
州
Deprecated
建築
Vision-Language Transformer
キャリブレートされた
いいえ
専門家の混合
いいえ
合計パラメータ
72B
アクティブ化されたパラメータ
72B
推論
いいえ
Precision
FP8
コンテキスト長
131K
Max Tokens
4K
他のModelsと比較
他のモデルに対してこのModelがどのように比較されるかを見てください。

Qwen
chat
Qwen3-VL-32B-Instruct
リリース日:2025/10/21
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
リリース日:2025/10/21
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
リリース日:2025/10/15
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
リリース日:2025/10/15
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
リリース日:2025/10/04
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
リリース日:2025/10/04
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
リリース日:2025/10/05
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
リリース日:2025/10/11
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
リリース日:2025/08/13
$
0.29
/ Video
