
Moonshot AI
Text Generation
Kimi-K2.5
Выпуск: 30 янв. 2026 г.
Kimi K2.5 — это open-source, нативная Multimodal агентская Model, созданная через постоянное предобучение на приблизительно 15 триллионах смешанных визуальных и Text token поверх Kimi-K2-Base. С архитектурой MoE на 1 триллион параметров (32 миллиарда активно) и длиной контекста 256 тысяч, она безупречно интегрирует Vision и понимание языка с расширенными агентскими возможностями, поддерживая как мгновенный, так и обдуманный режимы, а также разговорные и агентские парадигмы....
Total Context:
262K
Max output:
262K
Input:
$
0.55
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
Выпуск: 8 дек. 2025 г.
Модель GLM-4.6V достигает SOTA (State-of-the-Art) точности в визуальном понимании среди моделей с такими же параметрами. Впервые в мире она встраивает возможности функциональных вызовов непосредственно в архитектуру визуальной модели, что позволяет устранить разрыв между «Визуальным восприятием» и «Исполнимым действием». Это предоставляет единую техническую основу для Multimodal агентов в реальных бизнес-сценариях. Кроме того, визуальное контекстное окно было расширено до 128k, поддерживая обработку длинных видеопотоков и анализ многократных изображений высокого разрешения....
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
Выпуск: 21 окт. 2025 г.
Qwen3-VL — это Vision-языковая Model в серии Qwen3, достигающая первоклассных (SOTA) результатов на различных Vision-языковых (VL) тестах. Model поддерживает высокоразрешенный Image Input до уровня мегапикселей и обладает сильными возможностями в общем визуальном понимании, многоязычном OCR, детализированном визуальном привязывании и визуальном диалоге. Являясь частью серии Qwen3, он наследует мощную языковую основу, что позволяет ему понимать и выполнять сложные инструкции....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
Выпуск: 21 окт. 2025 г.
Qwen3-VL-Thinking — это версия серии Qwen3-VL, специально оптимизированная для сложных задач визуального мышления. Она включает в себя «Режим мышления», позволяющий генерировать детализированные промежуточные шаги рассуждения (цепочка рассуждений) перед предоставлением окончательного ответа. Этот дизайн значительно улучшает производительность этого model на задачах визуальных вопросов и ответов (VQA) и других задачах vision-языка, которые требуют многослойной логики, планирования и глубокого анализа....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
Выпуск: 15 окт. 2025 г.
Qwen3-VL-8B-Instruct — это Vision-language Model серии Qwen3, демонстрирующая сильные возможности в общем визуальном понимании, визуально-центрированном диалоге и многоязычном Text-распознавании в Image....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Thinking
Выпуск: 15 окт. 2025 г.
Qwen3-VL-8B-Thinking является vision-языковой Model из серии Qwen3, оптимизированной для сценариев, требующих сложного рассуждения. В этом режиме Thinking, Model выполняет пошаговое мышление и рассуждение перед предоставлением окончательного ответа....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
Выпуск: 4 окт. 2025 г.
Qwen3-VL-235B-A22B-Instruct — это модель типа Mixture-of-Experts (MoE) с 235 миллиардами параметров для Vision-Language (язык зрения), с 22 миллиардами активированных параметров. Это версия Qwen3-VL-235B-A22B, настроенная на выполнение инструкций, и она адаптирована для Chat-приложений....
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
Выпуск: 4 окт. 2025 г.
Qwen3-VL-235B-A22B-Thinking является одной из моделей серии Qwen3-VL, улучшенной версии Thinking, которая достигает передовых результатов в области мультимодального рассуждения, особенно в областях STEM, математики, причинного анализа и логических, основанных на доказательствах ответах. Она обладает архитектурой Mixture-of-Experts (MoE) с 235 миллиардом общих параметров и 22 миллиардом активных параметров....
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
Выпуск: 5 окт. 2025 г.
Серия Qwen3-VL обеспечивает превосходное понимание и генерацию Text, более глубокое визуальное восприятие и рассуждение, увеличенную длину контекста, улучшенное пространственное и Video динамическое понимание, а также более сильные возможности взаимодействия агентов. Доступен в плотных и MoE архитектурах, которые масштабируются от края до облака, с изданиями Instruct и улучшенными для рассуждений Thinking....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
Выпуск: 11 окт. 2025 г.
Серия Qwen3-VL обеспечивает превосходное понимание и генерацию Text, более глубокое визуальное восприятие и рассуждение, увеличенную длину контекста, улучшенное пространственное и Video динамическое понимание, а также более сильные возможности взаимодействия агентов. Доступен в плотных и MoE архитектурах, которые масштабируются от края до облака, с изданиями Instruct и улучшенными для рассуждений Thinking....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Z.ai
Text Generation
GLM-4.5V
Выпуск: 13 авг. 2025 г.
В рамках семейства моделей GLM-V, GLM-4.5V основан на базовой модели ZhipuAI GLM-4.5-Air, достигающей уровня SOTA в задачах, таких как Image, Video и документальное понимание, а также операции GUI-агентов....
Total Context:
66K
Max output:
66K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Captioner
Выпуск: 4 окт. 2025 г.
Qwen3-Omni-30B-A3B-Captioner — это Vision-Language Model (VLM) от команды Qwen компании Alibaba, являющаяся частью серии Qwen3. Она специально разработана для генерации высококачественных, подробных и точных Image подписей. Основанная на архитектуре Mixture of Experts (MoE) с общим параметром в 30B, модель может глубоко понимать содержимое Image и переводить его в богатый, естественный Text....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Instruct
Выпуск: 4 окт. 2025 г.
Qwen3-Omni-30B-A3B-Instruct является частью последней серии Qwen3 от команды Qwen компании Alibaba. Это модель (MoE) с мешаниной экспертов с общим числом параметров в 30 миллиардов и активными параметрами в 3 миллиарда, что эффективно снижает затраты на Inference, сохраняя мощную производительность. Модель была обучена на высококачественных, мультиисточниковых и многоязычных данных, демонстрируя отличный результат в базовых возможностях, таких как многоязычный диалог, а также в коде и математике....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Thinking
Выпуск: 4 окт. 2025 г.
Qwen3-Omni-30B-A3B-Thinking является ядром компонента "Thinker" в архитектуре "Thinker-Talker" омни-модальной модели Qwen3-Omni. Он специально разработан для обработки мультимодальных входных данных, включая Text, Audio, Image и Video, и выполнения сложных цепочек мыслительных рассуждений. Будучи разумом системы, эта Model объединяет все Inputs в общее представительное пространство для понимания и анализа, но его Output – только Text. Этот дизайн позволяет ему превосходно решать сложные задачи, требующие глубокого раздумья и межмодального понимания, такие как математические задачи, представленные в изображениях, что делает его ключевым для мощных когнитивных способностей всей архитектуры Qwen3-Omni....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

StepFun
Text Generation
step3
Выпуск: 6 авг. 2025 г.
Шаг 3 — это революционный модель многоуровневого рассуждения от StepFun. Она построена на архитектуре Mixture-of-Experts (MoE) с общим количеством параметров 321 млрд и 38 млрд активных параметров. Модель разработана по принципу «от начала до конца», чтобы минимизировать затраты на декодирование, обеспечивая первоклассную производительность в области Vision-языкового рассуждения. Посредством совместной разработки Multi-Matrix Factorization Attention (MFA) и Disaggregation Attention-FFN (AFD), Step3 поддерживает исключительную эффективность как на флагманских, так и на низкоклассных ускорителях. Во время предобучения Step3 обработала более 20 трлн text tokens и 4 трлн image-text смешанных tokens на более чем десяти языках. Модель достигла передовой производительности среди моделей с открытым исходным кодом на различных тестах, включая математику, код и Multimodal....
Total Context:
66K
Max output:
66K
Input:
$
0.57
/ M Tokens
Output:
$
1.42
/ M Tokens

Z.ai
Text Generation
GLM-4.1V-9B-Thinking
Выпуск: 4 июл. 2025 г.
GLM-4.1V-9B-Thinking — это открытая Vision-Language Model (VLM), совместно выпущенная Zhipu AI и лабораторией KEG Университета Цинхуа, разработанная для продвижения универсального мультимодального рассуждения. Основанная на базовой модели GLM-4-9B-0414, она вводит 'парадигму мышления' и использует обучение с подкреплением с выборочным обучением (RLCS) для значительного улучшения своих возможностей в сложных задачах. Будучи моделью с 9B параметрами, она достигает передовых результатов среди моделей аналогичного размера, а её результаты сопоставимы или даже превосходят гораздо более крупную модель Qwen-2.5-VL-72B с 72B параметрами на 18 различных тестах. Модель превосходно справляется с разнообразными задачами, включая решение STEM задач, понимание Video и длинных документов, а также она может обрабатывать Image с разрешением до 4K и произвольными соотношениями сторон....
Total Context:
66K
Max output:
66K
Input:
$
0.035
/ M Tokens
Output:
$
0.14
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
Выпуск: 24 мар. 2025 г.
Qwen2.5-VL-32B-Instruct — это мультимодальная большая языковая модель, выпущенная командой Qwen, являющаяся частью серии Qwen2.5-VL. Эта Model не только умеет распознавать обычные объекты, но и обладает высокой способностью анализировать тексты, диаграммы, иконки, графику и макеты внутри Image. Она действует как визуальный агент, который может рассуждать и динамично направлять инструменты, способный использовать компьютеры и телефоны. Кроме того, Model может точно локализовать объекты в Image и генерировать структурированные Outputs для данных, таких как счета и таблицы. По сравнению с его предшественником Qwen2-VL, эта версия улучшила математические и задачи решения через обучение с подкреплением, со стилями ответов, настроенными для лучшего соответствия человеческим предпочтениям....
Total Context:
131K
Max output:
131K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
Выпуск: 28 янв. 2025 г.
Qwen2.5-VL — это Vision-Text Model в серии Qwen2.5, который демонстрирует значительные улучшения во многих аспектах: он обладает сильными возможностями визуального понимания, распознавая общие объекты при анализе Text, диаграмм и макетов в Image; он функционирует как визуальный агент, способный к рассуждениям и динамическому направлению инструментов; он может понимать Video продолжительностью более 1 часа и фиксировать ключевые события; он точно локализует объекты в Image, генерируя ограничивающие рамки или точки; и поддерживает структурированные Outputs для отсканированных данных, таких как счета и формы. Model демонстрирует отличные результаты на различных тестах, включая Image, Video и агентные задачи....
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-7B-Instruct
Выпуск: 28 янв. 2025 г.
Qwen2.5-VL — это новый член серии Qwen, оснащённый мощными визуальными возможностями понимания. Он может анализировать Text, диаграммы и макеты в Image, понимать длинные Video и фиксировать события. Он способен рассуждать, манипулировать инструментами, поддерживать локализацию объектов с несколькими форматами и генерировать структурированные Output. Модель была оптимизирована для динамического разрешения и обучения на частоте кадров в понимании Video и повысила эффективность визуального энкодера....
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens
DeepSeek
Text Generation
deepseek-vl2
Выпуск: 13 дек. 2024 г.
DeepSeek-VL2 — это смешанный эксперт (MoE) Vision-языковая Model, разработанная на базе DeepSeekMoE-27B, использующая разреженную активированную MoE архитектуру для достижения превосходной производительности при всего 4.5B активных параметрах. Model превосходит в различных задачах, включая визуальные вопросы и ответы, оптическое распознавание символов, понимание документов/таблиц/графиков и визуальное заземление. В сравнении с существующими опенсорсными плотными моделями и моделями на основе MoE, она демонстрирует конкурентные или передовые показатели производительности, используя те же или меньшее количество активных параметров....
Total Context:
4K
Max output:
4K
Input:
$
0.15
/ M Tokens
Output:
$
0.15
/ M Tokens

