
Moonshot AI
Text Generation
Kimi-K2.6
Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...
Total Context:
262K
Max output:
262K
Input:
$
0.95
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

Z.ai
Text Generation
GLM-5V-Turbo
GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....
Total Context:
205K
Max output:
131K
Input:
$
1.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.5
Kimi K2.5 — это open-source, нативная Multimodal агентская Model, созданная через постоянное предобучение на приблизительно 15 триллионах смешанных визуальных и Text token поверх Kimi-K2-Base. С архитектурой MoE на 1 триллион параметров (32 миллиарда активно) и длиной контекста 256 тысяч, она безупречно интегрирует Vision и понимание языка с расширенными агентскими возможностями, поддерживая как мгновенный, так и обдуманный режимы, а также разговорные и агентские парадигмы....
Total Context:
262K
Max output:
262K
Input:
$
0.23
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
Модель GLM-4.6V достигает SOTA (State-of-the-Art) точности в визуальном понимании среди моделей с такими же параметрами. Впервые в мире она встраивает возможности функциональных вызовов непосредственно в архитектуру визуальной модели, что позволяет устранить разрыв между «Визуальным восприятием» и «Исполнимым действием». Это предоставляет единую техническую основу для Multimodal агентов в реальных бизнес-сценариях. Кроме того, визуальное контекстное окно было расширено до 128k, поддерживая обработку длинных видеопотоков и анализ многократных изображений высокого разрешения....
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
Qwen3-VL — это Vision-языковая Model в серии Qwen3, достигающая первоклассных (SOTA) результатов на различных Vision-языковых (VL) тестах. Model поддерживает высокоразрешенный Image Input до уровня мегапикселей и обладает сильными возможностями в общем визуальном понимании, многоязычном OCR, детализированном визуальном привязывании и визуальном диалоге. Являясь частью серии Qwen3, он наследует мощную языковую основу, что позволяет ему понимать и выполнять сложные инструкции....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
Qwen3-VL-Thinking — это версия серии Qwen3-VL, специально оптимизированная для сложных задач визуального мышления. Она включает в себя «Режим мышления», позволяющий генерировать детализированные промежуточные шаги рассуждения (цепочка рассуждений) перед предоставлением окончательного ответа. Этот дизайн значительно улучшает производительность этого model на задачах визуальных вопросов и ответов (VQA) и других задачах vision-языка, которые требуют многослойной логики, планирования и глубокого анализа....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
Qwen3-VL-8B-Instruct — это Vision-language Model серии Qwen3, демонстрирующая сильные возможности в общем визуальном понимании, визуально-центрированном диалоге и многоязычном Text-распознавании в Image....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
Qwen3-VL-235B-A22B-Instruct — это модель типа Mixture-of-Experts (MoE) с 235 миллиардами параметров для Vision-Language (язык зрения), с 22 миллиардами активированных параметров. Это версия Qwen3-VL-235B-A22B, настроенная на выполнение инструкций, и она адаптирована для Chat-приложений....
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
Qwen3-VL-235B-A22B-Thinking является одной из моделей серии Qwen3-VL, улучшенной версии Thinking, которая достигает передовых результатов в области мультимодального рассуждения, особенно в областях STEM, математики, причинного анализа и логических, основанных на доказательствах ответах. Она обладает архитектурой Mixture-of-Experts (MoE) с 235 миллиардом общих параметров и 22 миллиардом активных параметров....
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
Серия Qwen3-VL обеспечивает превосходное понимание и генерацию Text, более глубокое визуальное восприятие и рассуждение, увеличенную длину контекста, улучшенное пространственное и Video динамическое понимание, а также более сильные возможности взаимодействия агентов. Доступен в плотных и MoE архитектурах, которые масштабируются от края до облака, с изданиями Instruct и улучшенными для рассуждений Thinking....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
Серия Qwen3-VL обеспечивает превосходное понимание и генерацию Text, более глубокое визуальное восприятие и рассуждение, увеличенную длину контекста, улучшенное пространственное и Video динамическое понимание, а также более сильные возможности взаимодействия агентов. Доступен в плотных и MoE архитектурах, которые масштабируются от края до облака, с изданиями Instruct и улучшенными для рассуждений Thinking....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct — это мультимодальная большая языковая модель, выпущенная командой Qwen, являющаяся частью серии Qwen2.5-VL. Эта Model не только умеет распознавать обычные объекты, но и обладает высокой способностью анализировать тексты, диаграммы, иконки, графику и макеты внутри Image. Она действует как визуальный агент, который может рассуждать и динамично направлять инструменты, способный использовать компьютеры и телефоны. Кроме того, Model может точно локализовать объекты в Image и генерировать структурированные Outputs для данных, таких как счета и таблицы. По сравнению с его предшественником Qwen2-VL, эта версия улучшила математические и задачи решения через обучение с подкреплением, со стилями ответов, настроенными для лучшего соответствия человеческим предпочтениям....
Total Context:
131K
Max output:
131K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
Qwen2.5-VL — это Vision-Text Model в серии Qwen2.5, который демонстрирует значительные улучшения во многих аспектах: он обладает сильными возможностями визуального понимания, распознавая общие объекты при анализе Text, диаграмм и макетов в Image; он функционирует как визуальный агент, способный к рассуждениям и динамическому направлению инструментов; он может понимать Video продолжительностью более 1 часа и фиксировать ключевые события; он точно локализует объекты в Image, генерируя ограничивающие рамки или точки; и поддерживает структурированные Outputs для отсканированных данных, таких как счета и формы. Model демонстрирует отличные результаты на различных тестах, включая Image, Video и агентные задачи....
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.59
/ M Tokens

