Qwen2.5-VL-72B-Instruct
О Qwen2.5-VL-72B-Instruct
Qwen2.5-VL — это Vision-Text Model в серии Qwen2.5, который демонстрирует значительные улучшения во многих аспектах: он обладает сильными возможностями визуального понимания, распознавая общие объекты при анализе Text, диаграмм и макетов в Image; он функционирует как визуальный агент, способный к рассуждениям и динамическому направлению инструментов; он может понимать Video продолжительностью более 1 часа и фиксировать ключевые события; он точно локализует объекты в Image, генерируя ограничивающие рамки или точки; и поддерживает структурированные Outputs для отсканированных данных, таких как счета и формы. Model демонстрирует отличные результаты на различных тестах, включая Image, Video и агентные задачи.
Изучите, как передовые возможности Qwen2.5-VL-72B-Instruct в области Vision-Language решают сложные, реальные задачи.
Умная извлечение данных документов
Автоматизация извлечения данных из различных визуальных документов, таких как счета, формы и диаграммы, преобразование неструктурированных визуальных данных в структурированные, значимые аналитические данные.
Пример использования:
"Обработаны тысячи отсканированных форм регистрации в медицинских учреждениях, с точным извлечением демографических данных пациентов и медицинской истории, что позволило сократить ручной ввод данных на 80%."
Анализ длительного видеоконтента
Понимание и анализ длительного видеоконтента (более 1 часа), выявление ключевых событий, объектов и действий, выделение релевантных сегментов для быстрого просмотра.
Пример использования:
"Мониторинг 8-часовой съемки производственной линии с автоматическим выявлением аномалий, таких как неверное расположение продукции или нарушения безопасности, с точными временными метками для проверки."
Автоматизация визуального пользовательского интерфейса
Работа в качестве визуального агента для взаимодействия с цифровыми интерфейсами (веб, мобильные), выполнение сложных задач и автоматизация рабочих процессов на основе визуальных подсказок.
Пример использования:
"Автоматизация задач клиентской поддержки на веб-портале путем визуальной навигации по интерфейсу для обработки возвратов и обновления статусов заказов, исключая ручные вызовы API."
Локализация объектов в реальном времени
Точное обнаружение и локализация объектов в Image и Video потоках, создание ограничительных рамок или точек для точного отслеживания и управления запасами.
Пример использования:
"Внедрена система розничного склада для мониторинга наличия товаров на полках, выявления товаров с низким запасом и их точного местоположения, улучшая точность инвентаризации."
Метаданные
Спецификация
Государство
Deprecated
Архитектура
Vision-Language Transformer
Калибровка
Нет
Смешение экспертов
Нет
Общее количество параметров
72B
Активированные параметры
72B
Мышление
Нет
Точность
ФП8
Контекст length
131K
Максимум Tokens
4K
Сравнить с другими Model
Посмотрите, как эта Model сравнивается с другими.

Qwen
chat
Qwen3-VL-32B-Instruct
Выпуск: 21 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
Выпуск: 21 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
Выпуск: 15 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
Выпуск: 15 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
Выпуск: 4 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
Выпуск: 4 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
Выпуск: 5 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
Выпуск: 11 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
Выпуск: 13 авг. 2025 г.
$
0.29
/ Video
