Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Moonshot AI

Text Generation

Kimi-K2.5

Kimi K2.5 — это open-source, нативная Multimodal агентская Model, созданная через постоянное предобучение на приблизительно 15 триллионах смешанных визуальных и Text token поверх Kimi-K2-Base. С архитектурой MoE на 1 триллион параметров (32 миллиарда активно) и длиной контекста 256 тысяч, она безупречно интегрирует Vision и понимание языка с расширенными агентскими возможностями, поддерживая как мгновенный, так и обдуманный режимы, а также разговорные и агентские парадигмы....

Total Context:

262K

Max output:

262K

Input:

$

0.23

/ M Tokens

Output:

$

3.0

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

Модель GLM-4.6V достигает SOTA (State-of-the-Art) точности в визуальном понимании среди моделей с такими же параметрами. Впервые в мире она встраивает возможности функциональных вызовов непосредственно в архитектуру визуальной модели, что позволяет устранить разрыв между «Визуальным восприятием» и «Исполнимым действием». Это предоставляет единую техническую основу для Multimodal агентов в реальных бизнес-сценариях. Кроме того, визуальное контекстное окно было расширено до 128k, поддерживая обработку длинных видеопотоков и анализ многократных изображений высокого разрешения....

Total Context:

131K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

0.9

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

Qwen3-VL — это Vision-языковая Model в серии Qwen3, достигающая первоклассных (SOTA) результатов на различных Vision-языковых (VL) тестах. Model поддерживает высокоразрешенный Image Input до уровня мегапикселей и обладает сильными возможностями в общем визуальном понимании, многоязычном OCR, детализированном визуальном привязывании и визуальном диалоге. Являясь частью серии Qwen3, он наследует мощную языковую основу, что позволяет ему понимать и выполнять сложные инструкции....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

Qwen3-VL-Thinking — это версия серии Qwen3-VL, специально оптимизированная для сложных задач визуального мышления. Она включает в себя «Режим мышления», позволяющий генерировать детализированные промежуточные шаги рассуждения (цепочка рассуждений) перед предоставлением окончательного ответа. Этот дизайн значительно улучшает производительность этого model на задачах визуальных вопросов и ответов (VQA) и других задачах vision-языка, которые требуют многослойной логики, планирования и глубокого анализа....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

Qwen3-VL-8B-Instruct — это Vision-language Model серии Qwen3, демонстрирующая сильные возможности в общем визуальном понимании, визуально-центрированном диалоге и многоязычном Text-распознавании в Image....

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Instruct

Qwen3-VL-235B-A22B-Instruct — это модель типа Mixture-of-Experts (MoE) с 235 миллиардами параметров для Vision-Language (язык зрения), с 22 миллиардами активированных параметров. Это версия Qwen3-VL-235B-A22B, настроенная на выполнение инструкций, и она адаптирована для Chat-приложений....

Total Context:

262K

Max output:

262K

Input:

$

0.3

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Thinking

Qwen3-VL-235B-A22B-Thinking является одной из моделей серии Qwen3-VL, улучшенной версии Thinking, которая достигает передовых результатов в области мультимодального рассуждения, особенно в областях STEM, математики, причинного анализа и логических, основанных на доказательствах ответах. Она обладает архитектурой Mixture-of-Experts (MoE) с 235 миллиардом общих параметров и 22 миллиардом активных параметров....

Total Context:

262K

Max output:

262K

Input:

$

0.45

/ M Tokens

Output:

$

3.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

Серия Qwen3-VL обеспечивает превосходное понимание и генерацию Text, более глубокое визуальное восприятие и рассуждение, увеличенную длину контекста, улучшенное пространственное и Video динамическое понимание, а также более сильные возможности взаимодействия агентов. Доступен в плотных и MoE архитектурах, которые масштабируются от края до облака, с изданиями Instruct и улучшенными для рассуждений Thinking....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

Серия Qwen3-VL обеспечивает превосходное понимание и генерацию Text, более глубокое визуальное восприятие и рассуждение, увеличенную длину контекста, улучшенное пространственное и Video динамическое понимание, а также более сильные возможности взаимодействия агентов. Доступен в плотных и MoE архитектурах, которые масштабируются от края до облака, с изданиями Instruct и улучшенными для рассуждений Thinking....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-32B-Instruct

Qwen2.5-VL-32B-Instruct — это мультимодальная большая языковая модель, выпущенная командой Qwen, являющаяся частью серии Qwen2.5-VL. Эта Model не только умеет распознавать обычные объекты, но и обладает высокой способностью анализировать тексты, диаграммы, иконки, графику и макеты внутри Image. Она действует как визуальный агент, который может рассуждать и динамично направлять инструменты, способный использовать компьютеры и телефоны. Кроме того, Model может точно локализовать объекты в Image и генерировать структурированные Outputs для данных, таких как счета и таблицы. По сравнению с его предшественником Qwen2-VL, эта версия улучшила математические и задачи решения через обучение с подкреплением, со стилями ответов, настроенными для лучшего соответствия человеческим предпочтениям....

Total Context:

131K

Max output:

131K

Input:

$

0.27

/ M Tokens

Output:

$

0.27

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-72B-Instruct

Qwen2.5-VL — это Vision-Text Model в серии Qwen2.5, который демонстрирует значительные улучшения во многих аспектах: он обладает сильными возможностями визуального понимания, распознавая общие объекты при анализе Text, диаграмм и макетов в Image; он функционирует как визуальный агент, способный к рассуждениям и динамическому направлению инструментов; он может понимать Video продолжительностью более 1 часа и фиксировать ключевые события; он точно локализует объекты в Image, генерируя ограничивающие рамки или точки; и поддерживает структурированные Outputs для отсканированных данных, таких как счета и формы. Model демонстрирует отличные результаты на различных тестах, включая Image, Video и агентные задачи....

Total Context:

131K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Russian (Russia)
Russian (Russia)
Russian (Russia)