Qwen2.5-VL-7B-Instruct

Qwen2.5-VL-7B-Instruct

Qwen/Qwen2.5-VL-7B-Instruct

Tentang Qwen2.5-VL-7B-Instruct

Qwen2.5-VL adalah anggota baru dari seri Qwen, dilengkapi dengan kemampuan pemahaman visual yang kuat. Ini dapat menganalisis Text, diagram, dan tata letak dalam Image, memahami Video panjang, dan menangkap kejadian. Ini mampu bernalar, memanipulasi alat, mendukung lokalisasi objek multi-format, dan menghasilkan Output terstruktur. Model telah dioptimalkan untuk resolusi dinamis dan pelatihan laju bingkai dalam pemahaman Video, dan telah meningkatkan efisiensi encoder visual.

Tersedia Serverless

Jalankan kueri segera, bayar hanya untuk penggunaan

$

0.05

/

$

0.05

Per 1M Token (Input/Output)

Metadata

Buat di

28 Jan 2025

Lisensi

APACHE-2.0

Penyedia

Qwen

Spesifikasi

Negara

Available

Arsitektur

Vision-Language Model (VLM) combining a Vision Transformer (ViT) with window attention, SwiGLU, and RMSNorm, aligned with the Qwen2.5 LLM structure. It utilizes mRoPE for temporal understanding and YaRN for long text context handling.

Terkalibrasi

Tidak

Campuran Ahli

Tidak

Total Parameter

7B

Parameter yang Diaktifkan

7B

Penalaran

Tidak

Precision

FP8

Text panjang konteks

33K

Max Tokens

4K

Didukung Keberfungsian

Serverless

didukung

Serverless LoRA

Tidak didukung

Fine-tuning

Tidak didukung

Embeddings

Tidak didukung

Rerankers

Tidak didukung

Dukung Image Input

didukung

JSON Mode

Tidak didukung

Output Terstruktur

Tidak didukung

Alat

Tidak didukung

Fim Completion

Tidak didukung

Chat Prefix Completion

didukung

Siap untuk mempercepat pengembangan AI Anda?

Siap untuk mempercepat pengembangan AI Anda?

Siap untuk mempercepat pengembangan AI Anda?

Indonesian (Indonesia)

© 2025 SiliconFlow

Indonesian (Indonesia)

© 2025 SiliconFlow

Indonesian (Indonesia)

© 2025 SiliconFlow