約Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instructは、QwenチームによってリリースされたMultimodal大型言語Modelで、Qwen2.5-VLシリーズの一部です。このModelは一般的なオブジェクトを認識するだけでなく、Images内のText、チャート、アイコン、グラフィック、レイアウトを分析する能力に優れています。視覚エージェントとして、論理的に推論し、コンピュータや携帯電話を使用するためのツールを動的に指示することができます。さらに、このModelはImages内のオブジェクトを正確にローカライズし、請求書やテーブルなどのデータに対して構造化されたOutputsを生成することが可能です。前任のQwen2-VLと比較して、このバージョンは強化学習による数学的および問題解決能力が向上しており、応答のスタイルが人間の嗜好により良く合うように調整されています。
Qwen2.5-VL-32B-Instructのマルチモーダル知性とエージェント能力が視覚的および分析的な複雑な課題をどのように解決するかを探る。
文書データ抽出
請求書、フォーム、レポートからのデータ抽出を自動化し、効率的な処理のために情報を構造化する。
ユースケースの例:
"何千ものスキャンされた請求書からベンダー、アイテム、および合計金額を抽出し、データベースに入力して手動入力時間を80%削減した。"
ビジュアルUI自動化
ウェブまたはモバイルアプリ上での複雑な操作を、レイアウトを視覚的に理解しアクションを指示することで自動化。
ユースケースの例:
"AIエージェントがeコマースサイトをナビゲートし、商品を追加し、UI変更に適応して堅牢な自動化でチェックアウト完了。"
Videoイベント検出
長時間のVideoストリームを分析し、特定のイベント、オブジェクト、または活動を正確なタイムスタンプとサマリーで検出。
ユースケースの例:
"セキュリティ映像を監視し、無許可アクセスの事例を特定し、関連するVideoクリップを使ってアラートを生成。"
インタラクティブSTEM学習
教科書、図、手書きのノートにおける問題に対してステップバイステップの解決策を提供し、STEM教育を強化。
ユースケースの例:
"図や方程式を分析してステップバイステップで詳細に導出し、挑戦的な物理の問題を解決。"
メタデータ
仕様
州
Deprecated
建築
Multimodal Transformer
キャリブレートされた
はい
専門家の混合
いいえ
合計パラメータ
32B
アクティブ化されたパラメータ
32B
推論
いいえ
Precision
FP8
コンテキスト長
131K
Max Tokens
131K
他のModelsと比較
他のモデルに対してこのModelがどのように比較されるかを見てください。

Qwen
chat
Qwen3-VL-32B-Instruct
リリース日:2025/10/21
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
リリース日:2025/10/21
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
リリース日:2025/10/15
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
リリース日:2025/10/15
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
リリース日:2025/10/04
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
リリース日:2025/10/04
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
リリース日:2025/10/05
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
リリース日:2025/10/11
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
リリース日:2025/08/13
$
0.29
/ Video
