Qwen2.5-VL-32B-Instruct
О Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct — это мультимодальная большая языковая модель, выпущенная командой Qwen, являющаяся частью серии Qwen2.5-VL. Эта Model не только умеет распознавать обычные объекты, но и обладает высокой способностью анализировать тексты, диаграммы, иконки, графику и макеты внутри Image. Она действует как визуальный агент, который может рассуждать и динамично направлять инструменты, способный использовать компьютеры и телефоны. Кроме того, Model может точно локализовать объекты в Image и генерировать структурированные Outputs для данных, таких как счета и таблицы. По сравнению с его предшественником Qwen2-VL, эта версия улучшила математические и задачи решения через обучение с подкреплением, со стилями ответов, настроенными для лучшего соответствия человеческим предпочтениям.
Узнайте, как мультимодальный интеллект и агентные возможности Qwen2.5-VL-32B-Instruct решают сложные визуальные и аналитические задачи.
Извлечение данных из документов
Автоматизируйте извлечение данных из счетов-фактур, форм и отчетов, структурируя информацию для эффективной обработки.
Пример использования:
"Извлечены поставщик, товары и общие суммы из тысяч отсканированных счетов-фактур, заполняя базу данных и сокращая время ручного ввода на 80%."
Визуальная автоматизация пользовательского интерфейса
Автоматизируйте сложные взаимодействия на веб- или мобильных приложениях, визуально понимая макеты и управляя действиями.
Пример использования:
"Агент искусственного интеллекта ориентировался на сайте электронной коммерции, добавлял товары и завершал оформление покупки, адаптируясь к изменениям интерфейса для устойчивой автоматизации."
Обнаружение событий в видео
Анализируйте длительные потоки Video для выявления определенных событий, объектов или действий с точными временными метками и резюме.
Пример использования:
"Контролировались записи с камер безопасности, выявлялись случаи несанкционированного доступа и генерировались уведомления с соответствующими Video-клипами."
Интерактивное обучение STEM
Предоставляйте пошаговые решения задач из учебников, диаграмм или рукописных заметок, улучшая обучение STEM.
Пример использования:
"Решение сложной задачи по физике было выполнено путем анализа диаграммы и уравнений, предоставляя детализированное пошаговое выведение решения."
Метаданные
Спецификация
Государство
Deprecated
Архитектура
Multimodal Transformer
Калибровка
Да
Смешение экспертов
Нет
Общее количество параметров
32B
Активированные параметры
32B
Мышление
Нет
Точность
ФП8
Контекст length
131K
Максимум Tokens
131K
Сравнить с другими Model
Посмотрите, как эта Model сравнивается с другими.

Qwen
chat
Qwen3-VL-32B-Instruct
Выпуск: 21 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
Выпуск: 21 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
Выпуск: 15 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
Выпуск: 15 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
Выпуск: 4 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
Выпуск: 4 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
Выпуск: 5 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
Выпуск: 11 окт. 2025 г.
Общий Контекст:
262K
Максимальный Output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
Выпуск: 13 авг. 2025 г.
$
0.29
/ Video
