Qwen2.5-VL-72B-Instruct

Qwen2.5-VL-72B-Instruct

約Qwen2.5-VL-72B-Instruct

Qwen2.5-VLはQwen2.5シリーズのビジョン-言語モデルであり、いくつかの側面で大きな向上を示しています。それは共通のオブジェクトを認識しながらテキスト、チャート、およびレイアウトを分析する強力な視覚理解能力を備えており、推論し、動的にツールを指示できる視覚エージェントとして機能します。また、1時間以上のビデオを理解し、重要なイベントをキャプチャすることができます。さらに、画像の中のオブジェクトを正確に特定し、バウンディングボックスやポイントを生成して局在化します。請求書やフォームのようなスキャンデータのための構造化された出力をサポートしており、Image、Video、およびエージェントタスクを含むさまざまなベンチマークで優れたパフォーマンスを示します。

Qwen2.5-VL-72B-Instruct の高度なVision-言語能力がどのように複雑で現実の問題を解決するかを探る。

スマートドキュメントデータ抽出

請求書、フォーム、チャートのような多様な視覚文書からデータ抽出を自動化し、非構造化の視覚データを構造化された実行可能な洞察に変換します。

ユースケースの例:

"数千枚のスキャンされた健康管理のインテイクフォームを処理し、患者の人口統計や医療履歴を正確に抽出して手動データ入力を80%削減しました。"

長時間ビデオコンテンツ分析

1時間以上の長時間のVideoコンテンツを理解・分析し、重要なイベント、オブジェクト、アクションを識別して、迅速なレビューのために関連するセグメントを特定します。

ユースケースの例:

"8時間の製造ライン映像を監視し、ずれた製品や安全違反などの異常を自動的にフラグし、正確なタイムスタンプでレビュー用に記録しました。"

ビジュアルUI自動化

Webやモバイルのデジタルインターフェースと視覚エージェントとして対話し、視覚的ヒントに基づいて複雑なタスクを実行し、ワークフローを自動化します。

ユースケースの例:

"UIを視覚的にナビゲートして返品を処理し、注文状況を更新することで、ウェブポータルでの顧客サポートタスクを自動化し、手動API呼び出しを排除しました。"

リアルタイムオブジェクトローカリゼーション

ImageおよびVideoストリーム内のオブジェクトを正確に検出および局在化し、正確な追跡および在庫管理のためにバウンディングボックスやポイントを生成します。

ユースケースの例:

"棚在庫を監視し、在庫が少ないアイテムとその正確な位置を特定することにより在庫の正確性を向上させる小売倉庫システムを実装しました。"

メタデータ

作成する

ライセンス

-

プロバイダー

Qwen

ハギングフェイス

仕様

Deprecated

建築

Vision-Language Transformer

キャリブレートされた

いいえ

専門家の混合

いいえ

合計パラメータ

72B

アクティブ化されたパラメータ

72B

推論

いいえ

Precision

FP8

コンテキスト長

131K

Max Tokens

4K

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?