Qwen2.5-VL-72B-Instruct

Qwen2.5-VL-72B-Instruct

Qwen/Qwen2.5-VL-72B-Instruct

約Qwen2.5-VL-72B-Instruct

Qwen2.5-VLはQwen2.5シリーズのビジョン-言語モデルであり、いくつかの側面で大きな向上を示しています。それは共通のオブジェクトを認識しながらテキスト、チャート、およびレイアウトを分析する強力な視覚理解能力を備えており、推論し、動的にツールを指示できる視覚エージェントとして機能します。また、1時間以上のビデオを理解し、重要なイベントをキャプチャすることができます。さらに、画像の中のオブジェクトを正確に特定し、バウンディングボックスやポイントを生成して局在化します。請求書やフォームのようなスキャンデータのための構造化された出力をサポートしており、Image、Video、およびエージェントタスクを含むさまざまなベンチマークで優れたパフォーマンスを示します。

利用可能な Serverless

クエリをすぐに実行し、使用量のみを支払います

$

0.59

$

0.59

100万トークン(Input/Output)ごとに

メタデータ

作成する

2025/01/28

ライセンス

-

プロバイダー

Qwen

ハギングフェイス

仕様

Available

建築

Vision-Language Model (VLM) with a Streamlined and Efficient Vision Encoder (ViT with window attention, SwiGLU, RMSNorm) aligned with the Qwen2.5 LLM structure. Features include Dynamic Resolution and Frame Rate Training for video understanding, mRoPE for temporal sequence and speed, and YaRN for long text context length extrapolation.

キャリブレートされた

いいえ

専門家の混合

いいえ

合計パラメータ

72B

アクティブ化されたパラメータ

72B

推論

いいえ

Precision

FP8

コンテキスト長

131K

Max Tokens

4K

対応機能

Serverless

対応

Serverless LoRA

サポートされていません

Fine-tuning

サポートされていません

Embeddings

サポートされていません

Rerankers

サポートされていません

Image入力をサポートする

対応

JSON Mode

サポートされていません

構造化されたOutputs

サポートされていません

ツール

サポートされていません

Fim Completion

サポートされていません

Chat Prefix Completion

対応

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow