Qwen2.5-VL-7B-Instruct

Qwen2.5-VL-7B-Instruct

Qwen/Qwen2.5-VL-7B-Instruct

約Qwen2.5-VL-7B-Instruct

Qwen2.5-VLはQwenシリーズの新しいメンバーであり、強力な視覚理解能力を備えています。画像内のText、チャート、レイアウトを分析し、長いVideoを理解してイベントをキャプチャすることができます。推論、ツールの操作、マルチフォーマットオブジェクトの位置特定、構造化されたOutputの生成が可能です。ModelはVideo理解における動的解像度とフレームレートトレーニングに向けて最適化されており、視覚エンコーダーの効率が向上しました。

利用可能な Serverless

クエリをすぐに実行し、使用量のみを支払います

$

0.05

$

0.05

100万トークン(Input/Output)ごとに

メタデータ

作成する

2025/01/28

ライセンス

APACHE-2.0

プロバイダー

Qwen

ハギングフェイス

仕様

Available

建築

Vision-Language Model (VLM) combining a Vision Transformer (ViT) with window attention, SwiGLU, and RMSNorm, aligned with the Qwen2.5 LLM structure. It utilizes mRoPE for temporal understanding and YaRN for long text context handling.

キャリブレートされた

いいえ

専門家の混合

いいえ

合計パラメータ

7B

アクティブ化されたパラメータ

7B

推論

いいえ

Precision

FP8

コンテキスト長

33K

Max Tokens

4K

対応機能

Serverless

対応

Serverless LoRA

サポートされていません

Fine-tuning

サポートされていません

Embeddings

サポートされていません

Rerankers

サポートされていません

Image入力をサポートする

対応

JSON Mode

サポートされていません

構造化されたOutputs

サポートされていません

ツール

サポートされていません

Fim Completion

サポートされていません

Chat Prefix Completion

対応

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow