モデル

製品

価格

ドキュメント

ブログ

約

連絡

🎉 LongCat-2.0はSiliconFlowで利用可能です。今すぐお試しください。

モデル

Qwen2.5-VL-7B-Instruct

Qwen2.5-VL-7B-Instruct

APIリファレンス

約Qwen2.5-VL-7B-Instruct

Qwen2.5-VLはQwenシリーズの新しいメンバーであり、強力な視覚理解能力を備えています。画像内のText、チャート、レイアウトを分析し、長いVideoを理解してイベントをキャプチャすることができます。推論、ツールの操作、マルチフォーマットオブジェクトの位置特定、構造化されたOutputの生成が可能です。ModelはVideo理解における動的解像度とフレームレートトレーニングに向けて最適化されており、視覚エンコーダーの効率が向上しました。

ユースケース

Qwen2.5-VL-7B-Instructの強力なビジュアル理解能力とエージェント機能が、さまざまなドメインにおける複雑な現実世界の問題を解決するためにどのように応用できるかを探ります。

自動化されたドキュメントインテリジェンス

請求書、フォーム、レポートなどの多様なビジュアルドキュメントから、テキスト、表、レイアウトを含む構造化データを高精度で抽出し、マルチフォーマットのOutputを生成します。

ユースケースの例:

"10,000件のスキャン済み請求書を処理し、ベンダー、品目、合計金額をJSON形式に抽出し、金融会社の手動データ入力を90%削減しました。"

インテリジェントなVideoイベント検出

1時間以上の長編Videoコンテンツを分析し、特定のイベント、オブジェクト、またはアクションを識別、位置付け、タイムスタンプを打つことで、効率的なコンテンツ管理、監視、またはスポーツ解析を可能にします。

ユースケースの例:

"2時間のセキュリティ映像を監視し、不正アクセス試行のすべてのインスタンスを特定し、侵入者の周りに境界ボックスを生成し、セキュリティシステムに正確なタイムスタンプを付与しました。"

AIを使ったUIの自動化

視覚的なエージェントとして、アプリケーション（ウェブ、モバイル、デスクトップ）と対話し、UI要素を理解し、ワークフローをナビゲートし、視覚的な異常や機能的なエラーを特定します。

ユースケースの例:

"複雑なeコマースWebアプリケーションのエンドツーエンドテストを自動化し、ボタンの機能、フォームの送信、さまざまな画面サイズでのレイアウトの一貫性を視覚的に検証し、重要なUIバグを特定しました。"

コンテクストに基づくビジュアルアシスタント

ユーザーの画面、チャート、または図表を視覚的に解釈し、ソフトウェアツールまたはWebインターフェイスと対話して複雑な多段階タスクを実行することでリアルタイムの支援を提供します。

ユースケースの例:

"Pythonベースのデータサイエンス環境で複雑なデータ分析ワークフローをユーザーに案内し、現在のデータを視覚的に解釈し、次のステップを提案し、特定のPandas操作とMatplotlibチャートの生成を実行しました。"

Precision Imageアノテーション

Image内のオブジェクトを正確に識別し、位置を特定することで、大規模なデータセット用に正確な境界ボックス、ポイント、および構造化属性Outputを生成します（例：衛星画像、医療スキャン）。

ユースケースの例:

"都市計画のために何千もの空撮ドローンImageをアノテートし、建物の輪郭、道路網、緑地を境界ボックスと信頼スコアで正確にアウトライン化し、インフラ評価を加速しました。"

メタデータ

作成する

2025/01/28

ライセンス

APACHE-2.0

プロバイダー

Qwen

ハギングフェイス

Qwen2.5-VL-7B-Instruct

仕様

州

Deprecated

建築

Vision-Language Transformer

キャリブレートされた

いいえ

専門家の混合

いいえ

合計パラメータ

アクティブ化されたパラメータ

推論

いいえ

Precision

FP8

コンテキスト長

33K

Max Tokens

他のModelsと比較

他のモデルに対してこのModelがどのように比較されるかを見てください。

Qwen

chat

Qwen3-VL-32B-Instruct

リリース日：2025/10/21

Total Context:

262K

Max output:

262K

Input：

0.2

/ M Tokens

Output:

0.6

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Thinking

リリース日：2025/10/21

Total Context:

262K

Max output:

262K

Input：

0.2

/ M Tokens

Output:

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Instruct

リリース日：2025/10/15

Total Context:

262K

Max output:

262K

Input：

0.18

/ M Tokens

Output:

0.68

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Thinking

リリース日：2025/10/15

Total Context:

262K

Max output:

262K

Input：

0.18

/ M Tokens

Output:

2.0

/ M Tokens

Qwen

chat

Qwen3-VL-235B-A22B-Instruct

リリース日：2025/10/04

Total Context:

262K

Max output:

262K

Input：

0.3

/ M Tokens

Output:

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-235B-A22B-Thinking

リリース日：2025/10/04

Total Context:

262K

Max output:

262K

Input：

0.45

/ M Tokens

Output:

3.5

/ M Tokens

Qwen

chat

Qwen3-VL-30B-A3B-Instruct

リリース日：2025/10/05

Total Context:

262K

Max output:

262K

Input：

0.29

/ M Tokens

Output:

1.0

/ M Tokens

Qwen

chat

Qwen3-VL-30B-A3B-Thinking

リリース日：2025/10/11

Total Context:

262K

Max output:

262K

Input：

0.29

/ M Tokens

Output:

1.0

/ M Tokens

Qwen

image-to-video

Wan2.2-I2V-A14B

リリース日：2025/08/13

0.29

/ Video

AI開発を加速する準備はできていますか？

AI開発を加速する準備はできていますか？

AI開発を加速する準備はできていますか？

ページ

モデル

製品

ページ

モデル

製品

ページ

モデル

製品