🎉 Kimi-K2.5 доступно на SiliconFlow. Попробуйте это СЕЙЧАС.

Модели

Продукты

Цены

Документация

Блог

О

Контакт

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

All

Featured

LLM

Vision

Image

Video

Audio

Serverless

Поставщики

Moonshot AI

Text Generation

Kimi-K2.5

Выпуск: 30 янв. 2026 г.

Kimi K2.5 — это open-source, нативная Multimodal агентская Model, созданная через постоянное предобучение на приблизительно 15 триллионах смешанных визуальных и Text token поверх Kimi-K2-Base. С архитектурой MoE на 1 триллион параметров (32 миллиарда активно) и длиной контекста 256 тысяч, она безупречно интегрирует Vision и понимание языка с расширенными агентскими возможностями, поддерживая как мгновенный, так и обдуманный режимы, а также разговорные и агентские парадигмы....

Total Context:

262K

Max output:

262K

Input:

0.55

/ M Tokens

Output:

3.0

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M2.1

Выпуск: 23 дек. 2025 г.

MiniMax-M2.1 - это открытая большая языковая Model, оптимизированная для агентных возможностей, превосходящая в кодировании, использовании инструментов, следовании инструкциям и долгосрочном планировании. Она поддерживает многоязычную разработку программного обеспечения и сложные многошаговые рабочие процессы, достигая 74.0 на SWE-bench Verified и превосходя Claude Sonnet 4.5 в многоязычных сценариях....

Total Context:

197K

Max output:

131K

Input:

0.29

/ M Tokens

Output:

1.2

/ M Tokens

Z.ai

Text Generation

GLM-4.7

Выпуск: 23 дек. 2025 г.

GLM-4.7 — это новая флагманская модель компании Zhipu, с общим количеством параметров 355 миллиардов и 32 миллиарда активированных параметров, обеспечивающая комплексные обновления в области общих разговоров, рассуждений и возможностей агентов. Ответы стали более лаконичными и естественными; писательство ощущается более захватывающим; инструкции по вызову инструментов выполняются более надежно; и передний конечный блеск артефактов и агентского кодирования, вместе с эффективностью выполнения задач на большие расстояния, был дополнительно улучшен....

Total Context:

205K

Max output:

205K

Input:

0.42

/ M Tokens

Output:

2.2

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2

Выпуск: 4 дек. 2025 г.

DeepSeek-V3.2 — это модель, которая сочетает в себе высокую вычислительную эффективность с превосходной способностью к рассуждению и агентской производительности. Ее подход основывается на трех ключевых технических прорывах: DeepSeek Sparse Attention (DSA), эффективном механизме внимания, который существенно снижает вычислительную сложность при сохранении производительности модели, специально оптимизированной для сценариев с длинным контекстом; масштабируемой структуры обучения с подкреплением, которая позволяет достичь производительности, сопоставимой с GPT-5, и уровня рассуждений на уровне Gemini-3.0-Pro в его варианте с высокими вычислительными ресурсами; и крупномасштабного конвейера синтеза агентских задач, чтобы интегрировать рассуждения в сценарии использования инструментов, улучшая соответствие и обобщение в сложных интерактивных средах. Модель достигла золотого уровня производительности на Международной математической олимпиаде (IMO) и Международной олимпиаде по информатике (IOI) в 2025 году....

Total Context:

164K

Max output:

164K

Input:

0.27

/ M Tokens

Output:

0.42

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2-Exp

Выпуск: 10 окт. 2025 г.

DeepSeek-V3.2-Exp — это экспериментальная версия модели DeepSeek, созданная на основе V3.1-Terminus. В ней дебютирует разреженное внимание DeepSeek (DSA) для более быстрого и эффективного обучения и Inference на длинном контексте....

Total Context:

164K

Max output:

164K

Input:

0.27

/ M Tokens

Output:

0.41

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

Выпуск: 8 дек. 2025 г.

Модель GLM-4.6V достигает SOTA (State-of-the-Art) точности в визуальном понимании среди моделей с такими же параметрами. Впервые в мире она встраивает возможности функциональных вызовов непосредственно в архитектуру визуальной модели, что позволяет устранить разрыв между «Визуальным восприятием» и «Исполнимым действием». Это предоставляет единую техническую основу для Multimodal агентов в реальных бизнес-сценариях. Кроме того, визуальное контекстное окно было расширено до 128k, поддерживая обработку длинных видеопотоков и анализ многократных изображений высокого разрешения....

Total Context:

131K

Max output:

131K

Input:

0.3

/ M Tokens

Output:

0.9

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1-Terminus

Выпуск: 29 сент. 2025 г.

DeepSeek-V3.1-Терминус — это обновленная версия, построенная на сильных сторонах V3.1 с учетом ключевых отзывов пользователей. Она улучшает языковую согласованность, уменьшая количество случаев смешанного китайско-английского текста и периодически встречающихся аномальных символов. Также она обновляет более сильные агенты кода и агенты поиска....

Total Context:

164K

Max output:

164K

Input:

0.27

/ M Tokens

Output:

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1

Выпуск: 25 авг. 2025 г.

DeepSeek-V3.1 — это гибридная Model, поддерживающая как режим мышления, так и режим без мышления. Благодаря оптимизации после обучения, производительность Model в использовании инструментов и выполнении задач агентами значительно улучшилась. DeepSeek-V3.1-Think достигает качества ответов, сопоставимого с DeepSeek-R1-0528, при этом отвечая быстрее....

Total Context:

164K

Max output:

164K

Input:

0.27

/ M Tokens

Output:

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3

Выпуск: 26 дек. 2024 г.

DeepSeek-V3-0324 демонстрирует заметные улучшения по сравнению со своим предшественником, DeepSeek-V3, в нескольких ключевых аспектах, включая значительное повышение производительности рассуждений, более сильные навыки фронтенд-разработки и более умелые возможности использования инструментов....

Total Context:

164K

Max output:

164K

Input:

0.25

/ M Tokens

Output:

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1

Выпуск: 28 мая 2025 г.

DeepSeek-R1-0528 — это обновленная Model, показывающая значительные улучшения в решении сложных задач рассуждения, а также предлагающая сниженную частоту галлюцинаций, улучшенную поддержку вызова функций и лучшее качество работы с кодированием атмосферы. Она достигает производительности, сопоставимой с O3 и Gemini 2.5 Pro....

Total Context:

164K

Max output:

164K

Input:

0.5

/ M Tokens

Output:

2.18

/ M Tokens

Tongyi-MAI

Text-to-Image

Z-Image-Turbo

Выпуск: 4 дек. 2025 г.

0.005

/ Image

Nex AGI

DeepSeek-V3.1-Nex-N1

Выпуск: 19 нояб. 2025 г.

DeepSeek-V3.1-Nex-N1 — это большая языковая модель, разработанная на основе передовых моделей с открытым исходным кодом и оптимизированная посредством обучающей доработки. Эта оптимизация значительно улучшает её возможности, что приводит к выдающимся результатам в задачах Aгента и генерации и понимании кода, использовании инструментов и ролевых игр. Модель превосходит в декомпозиции сложных задач на многошаговые планы и в проактивном разъяснении неясностей, чтобы обеспечить надёжное и точное выполнение....

Total Context:

131K

Max output:

164K

Input:

0.27

/ M Tokens

Output:

1.0

/ M Tokens

Black Forest Labs

Text-to-Image

FLUX.2 [flex]

Выпуск: 11 дек. 2025 г.

0.06

/ Image

Black Forest Labs

Text-to-Image

FLUX.2 [pro]

Выпуск: 11 дек. 2025 г.

0.03

/ Image

MiniMaxAI

Text Generation

MiniMax-M2

Выпуск: 28 окт. 2025 г.

MiniMax-M2 переопределяет эффективность для агентов. Это компактная, быстрая и экономически эффективная модель MoE (230 миллиардов общих параметров с 10 миллиардами активных параметров), созданная для элитной производительности в кодировании и агентских задачах, при этом сохраняя мощный общий интеллект. Используя всего 10 миллиардов активированных параметров, MiniMax-M2 обеспечивает сложную, сквозную производительность инструментов, которую ожидают от ведущих моделей сегодня, но в упрощенной форме, что делает развертывание и масштабирование проще, чем когда-либо....

Total Context:

197K

Max output:

131K

Input:

0.3

/ M Tokens

Output:

1.2

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

Выпуск: 21 окт. 2025 г.

Qwen3-VL — это Vision-языковая Model в серии Qwen3, достигающая первоклассных (SOTA) результатов на различных Vision-языковых (VL) тестах. Model поддерживает высокоразрешенный Image Input до уровня мегапикселей и обладает сильными возможностями в общем визуальном понимании, многоязычном OCR, детализированном визуальном привязывании и визуальном диалоге. Являясь частью серии Qwen3, он наследует мощную языковую основу, что позволяет ему понимать и выполнять сложные инструкции....

Total Context:

262K

Max output:

262K

Input:

0.2

/ M Tokens

Output:

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

Выпуск: 21 окт. 2025 г.

Qwen3-VL-Thinking — это версия серии Qwen3-VL, специально оптимизированная для сложных задач визуального мышления. Она включает в себя «Режим мышления», позволяющий генерировать детализированные промежуточные шаги рассуждения (цепочка рассуждений) перед предоставлением окончательного ответа. Этот дизайн значительно улучшает производительность этого model на задачах визуальных вопросов и ответов (VQA) и других задачах vision-языка, которые требуют многослойной логики, планирования и глубокого анализа....

Total Context:

262K

Max output:

262K

Input:

0.2

/ M Tokens

Output:

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

Выпуск: 15 окт. 2025 г.

Qwen3-VL-8B-Instruct — это Vision-language Model серии Qwen3, демонстрирующая сильные возможности в общем визуальном понимании, визуально-центрированном диалоге и многоязычном Text-распознавании в Image....

Total Context:

262K

Max output:

262K

Input:

0.18

/ M Tokens

Output:

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Thinking

Выпуск: 15 окт. 2025 г.

Qwen3-VL-8B-Thinking является vision-языковой Model из серии Qwen3, оптимизированной для сценариев, требующих сложного рассуждения. В этом режиме Thinking, Model выполняет пошаговое мышление и рассуждение перед предоставлением окончательного ответа....

Total Context:

262K

Max output:

262K

Input:

0.18

/ M Tokens

Output:

2.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Instruct

Выпуск: 4 окт. 2025 г.

Qwen3-VL-235B-A22B-Instruct — это модель типа Mixture-of-Experts (MoE) с 235 миллиардами параметров для Vision-Language (язык зрения), с 22 миллиардами активированных параметров. Это версия Qwen3-VL-235B-A22B, настроенная на выполнение инструкций, и она адаптирована для Chat-приложений....

Total Context:

262K

Max output:

262K

Input:

0.3

/ M Tokens

Output:

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Thinking

Выпуск: 4 окт. 2025 г.

Qwen3-VL-235B-A22B-Thinking является одной из моделей серии Qwen3-VL, улучшенной версии Thinking, которая достигает передовых результатов в области мультимодального рассуждения, особенно в областях STEM, математики, причинного анализа и логических, основанных на доказательствах ответах. Она обладает архитектурой Mixture-of-Experts (MoE) с 235 миллиардом общих параметров и 22 миллиардом активных параметров....

Total Context:

262K

Max output:

262K

Input:

0.45

/ M Tokens

Output:

3.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

Выпуск: 5 окт. 2025 г.

Серия Qwen3-VL обеспечивает превосходное понимание и генерацию Text, более глубокое визуальное восприятие и рассуждение, увеличенную длину контекста, улучшенное пространственное и Video динамическое понимание, а также более сильные возможности взаимодействия агентов. Доступен в плотных и MoE архитектурах, которые масштабируются от края до облака, с изданиями Instruct и улучшенными для рассуждений Thinking....

Total Context:

262K

Max output:

262K

Input:

0.29

/ M Tokens

Output:

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

Выпуск: 11 окт. 2025 г.

Total Context:

262K

Max output:

262K

Input:

0.29

/ M Tokens

Output:

1.0

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Thinking

Выпуск: 7 нояб. 2025 г.

Kimi K2 Thinking — это последняя и самая мощная версия открытой модели мышления. Начиная с Kimi K2, мы создали его как агента мышления, который рассуждает шаг за шагом, динамически используя инструменты. Он устанавливает новый стандарт в "Последнем Экзамене Человечества" (HLE), BrowseComp и других бенчмарках, значительно увеличивая глубину многократных рассуждений и поддерживая стабильное использование инструментов на протяжении 200–300 последовательных вызовов. В то же время, K2 Thinking — это нативная модель квантования INT4 с контекстным окном в 262k, достигающая без потерь сокращения задержек в inference и использования памяти GPU....

Total Context:

262K

Max output:

262K

Input:

0.55

/ M Tokens

Output:

2.5

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct-0905

Выпуск: 8 сент. 2025 г.

Kimi K2-Instruct-0905, новейшая модель смешивания экспертов (MoE), является последней, самой мощной версией Kimi K2. Ключевые особенности включают улучшенные возможности кодирования, особенно для фронтенда и вызова инструментов, длину контекста, увеличенную до 256k tokens, а также улучшенную интеграцию с различными каркасами агентов....

Total Context:

262K

Max output:

262K

Input:

0.4

/ M Tokens

Output:

2.0

/ M Tokens

OpenAI

Text Generation

gpt-oss-120b

Выпуск: 13 авг. 2025 г.

Серия gpt-oss — это модели OpenAI с открытыми весами, предназначенные для мощного рассуждения, агентных задач и универсальных сценариев использования разработчиками. gpt-oss-120b предназначен для производственных, универсальных задач с высоким уровнем рассуждения, которые помещаются в одно 80 ГБ GPU (например, NVIDIA H100 или AMD MI300X)....

Total Context:

131K

Max output:

Input:

0.05

/ M Tokens

Output:

0.45

/ M Tokens

OpenAI

Text Generation

gpt-oss-20b

Выпуск: 13 авг. 2025 г.

Серия gpt-oss — это открытые модели OpenAI, предназначенные для мощных вычислений, агентных задач и универсальных случаев использования разработчиков. gpt-oss-20b предназначен для меньшей задержки и локальных или специализированных случаев использования....

Total Context:

131K

Max output:

Input:

0.04

/ M Tokens

Output:

0.18

/ M Tokens

Z.ai

Text Generation

GLM-4.6

Выпуск: 4 окт. 2025 г.

По сравнению с GLM-4.5, GLM-4.6 вносит несколько ключевых улучшений, включая более длинное контекстное окно, расширенное до 200K tokens, улучшенную производительность кодирования, продвинутое умозаключение, более способных агентов и усовершенствованное написание....

Total Context:

205K

Max output:

205K

Input:

0.39

/ M Tokens

Output:

1.9

/ M Tokens

Z.ai

Text Generation

GLM-4.5-Air

Выпуск: 28 июл. 2025 г.

Серия моделей GLM-4.5 являются основными моделями, разработанными для интеллектуальных агентов. GLM-4.5-Air использует более компактный дизайн с 106 миллиардами общих параметров и 12 миллиардами активных параметров. Это также гибридная модель, обеспечивающая как режим мышления, так и режим без мышления....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Output:

0.86

/ M Tokens

Z.ai

Text Generation

GLM-4.5V

Выпуск: 13 авг. 2025 г.

В рамках семейства моделей GLM-V, GLM-4.5V основан на базовой модели ZhipuAI GLM-4.5-Air, достигающей уровня SOTA в задачах, таких как Image, Video и документальное понимание, а также операции GUI-агентов....

Total Context:

66K

Max output:

66K

Input:

0.14

/ M Tokens

Output:

0.86

/ M Tokens

Qwen

Image-to-Video

Wan2.2-I2V-A14B

Выпуск: 13 авг. 2025 г.

0.29

/ Video

Qwen

Text-to-Video

Wan2.2-T2V-A14B

Выпуск: 13 авг. 2025 г.

0.29

/ Video

inclusionAI

Text Generation

Ling-flash-2.0

Выпуск: 18 сент. 2025 г.

Ling-flash-2.0 — это языковая Model от inclusionAI с общим числом параметров 100 миллиардов, из которых 6,1 миллиарда активируются на каждый token (4,8 миллиарда без учета Embedding). Как часть архитектурной серии Ling 2.0, она разработана как легкая, но мощная Model Mixture-of-Experts (MoE). Она стремится обеспечить производительность, сравнимую или даже превосходящую модели плотности уровня 40B и другие более крупные модели MoE, но с значительно меньшим числом активных параметров. Model представляет собой стратегию, нацеленную на достижение высокой производительности и эффективности через экстремальный архитектурный дизайн и методы обучения....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Output:

0.57

/ M Tokens

inclusionAI

Text Generation

Ling-mini-2.0

Выпуск: 10 сент. 2025 г.

Ling-mini-2.0 — это маленькая, но высокопроизводительная большая языковая Model, построенная на архитектуре MoE. Она имеет 16 миллиардов общих параметров, но только 1,4 миллиарда активируются на каждый token (не-Embedding 789 миллионов), что обеспечивает чрезвычайно быструю генерацию. Благодаря эффективному дизайну MoE и крупномасштабным высококачественным обучающим данным, несмотря на наличие всего 1,4 миллиарда активированных параметров, Ling-mini-2.0 все равно демонстрирует высочайшую производительность в downstream задачах, сопоставимую с плотными LLM до 10 миллиардов и даже более крупными моделями MoE....

Total Context:

131K

Max output:

131K

Input:

0.07

/ M Tokens

Output:

0.28

/ M Tokens

inclusionAI

Text Generation

Ring-flash-2.0

Выпуск: 29 сент. 2025 г.

Ring-flash-2.0 — это высокопроизводительный размышляющий Model, глубоко оптимизированный на базе Ling-flash-2.0-base. Это Model с Поцелуем-Экспертов (MoE) и общим количеством параметров 100B, но только 6.1B активируются при Inference. Этот Model использует независимо разработанный алгоритм 'icepop' для решения проблем нестабильности обучения в обучении с подкреплением (RL) для моделей MoE LLM, обеспечивая непрерывное улучшение своих сложных способностей к рассуждению в течение длительных циклов обучения RL. Ring-flash-2.0 демонстрирует значительные прорывы в сложных эталонных тестах, включая математические соревнования, генерацию кода и логическое рассуждение. Его производительность превосходит SOTA плотные модели под 40B параметров и соперничает с более крупными открытыми MoE-моделями и закрытыми высокопроизводительными размышляющими модельными API. Еще более удивительно, что хотя Ring-flash-2.0 в первую очередь разработан для сложных рассуждений, он также демонстрирует сильные способности в творческом письме. Благодаря своей эффективной архитектуре, он достигает высокой скорости Inference, значительно снижая затраты на Inference для размышляющих моделей в условиях высокой одновременности....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Output:

0.57

/ M Tokens

Tencent

Text Generation

Hunyuan-MT-7B

Выпуск: 18 сент. 2025 г.

Модель перевода Hunyuan состоит из модели перевода, Hunyuan-MT-7B, и ансамблевой модели, Hunyuan-MT-Chimera. Hunyuan-MT-7B — это легкая модель перевода с 7 миллиардами параметров, используемая для перевода исходного текста на целевой язык. Модель поддерживает взаимный перевод между 33 языками, включая пять языков национальных меньшинств Китая. В конкурсе по машинному переводу WMT25 Hunyuan-MT-7B заняла первое место в 30 из 31 языковой категории, в которых она участвовала, демонстрируя свои выдающиеся возможности перевода. Для задач перевода Tencent Hunyuan предложила всеобъемлющую структуру обучения, охватывающую предобучение, контролируемое Fine-tuning, улучшение перевода и усовершенствование ансамбля, достигая передовых результатов среди моделей подобного масштаба. Модель вычислительно эффективна и проста в развертывании, что делает её подходящей для различных сценариев применения....

Total Context:

33K

Max output:

33K

Input:

0.0

/ M Tokens

Output:

0.0

/ M Tokens

Qwen

Text Generation

Qwen3-Next-80B-A3B-Instruct

Выпуск: 18 сент. 2025 г.

Qwen3-Next-80B-A3B-Instruct — это модель следующего поколения, выпущенная командой Qwen компании Alibaba. Она построена на новой архитектуре Qwen3-Next, предназначенной для максимальной эффективности обучения и Inference. Модель включает инновационные функции, такие как механизм гибридного внимания (Gated DeltaNet и Gated Attention), высокоразреженная структура с механизмом смеси экспертов (MoE) и различные оптимизации стабильности. Как разреженная модель с 80 миллиардами параметров, она активирует только около 3 миллиардов параметров на token во время Inference, что значительно снижает вычислительные затраты и обеспечивает более чем в 10 раз большую производительность по сравнению с моделью Qwen3-32B для задач с длинным контекстом, превышающих 32K tokens. Это версия с настройкой инструкций, оптимизированная для задач общего назначения, и не поддерживает режим 'мышления'. Что касается производительности, она сопоставима с флагманской моделью Qwen, Qwen3-235B, по некоторым критериям, демонстрируя значительные преимущества в сценах с ультрадлинным контекстом....

Total Context:

262K

Max output:

262K

Input:

0.14

/ M Tokens

Output:

1.4

/ M Tokens

Qwen

Text Generation

Qwen3-Next-80B-A3B-Thinking

Выпуск: 25 сент. 2025 г.

Qwen3-Next-80B-A3B-Thinking — это модель следующего поколения от команды Qwen компании Alibaba, специально разработанная для сложных задач рассуждения. Она построена на инновационной архитектуре Qwen3-Next, которая сочетает в себе механизм гибридного внимания (Gated DeltaNet и Gated Attention) с высокоразряженной структурой смеси экспертов (MoE) для достижения максимальной эффективности обучения и inference. Как разреженная модель с 80 миллиардами параметров, она активирует только около 3 миллиардов параметров в ходе inference, что значительно снижает вычислительные затраты и обеспечивает более чем в 10 раз более высокую пропускную способность по сравнению с моделью Qwen3-32B на задачах с длинным контекстом, превышающим 32K tokenов. Эта версия 'Thinking' оптимизирована для сложных многоэтапных задач, таких как математические доказательства, синтез кода, логический анализ и планирование агентов, и по умолчанию она outputирует структурированные следы 'мышления'. По производительности она превосходит более дорогие модели, такие как Qwen3-32B-Thinking, и превзошла Gemini-2.5-Flash-Thinking на нескольких бенчмарках....

Total Context:

262K

Max output:

262K

Input:

0.14

/ M Tokens

Output:

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Captioner

Выпуск: 4 окт. 2025 г.

Qwen3-Omni-30B-A3B-Captioner — это Vision-Language Model (VLM) от команды Qwen компании Alibaba, являющаяся частью серии Qwen3. Она специально разработана для генерации высококачественных, подробных и точных Image подписей. Основанная на архитектуре Mixture of Experts (MoE) с общим параметром в 30B, модель может глубоко понимать содержимое Image и переводить его в богатый, естественный Text....

Total Context:

66K

Max output:

66K

Input:

0.1

/ M Tokens

Output:

0.4

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Instruct

Выпуск: 4 окт. 2025 г.

Qwen3-Omni-30B-A3B-Instruct является частью последней серии Qwen3 от команды Qwen компании Alibaba. Это модель (MoE) с мешаниной экспертов с общим числом параметров в 30 миллиардов и активными параметрами в 3 миллиарда, что эффективно снижает затраты на Inference, сохраняя мощную производительность. Модель была обучена на высококачественных, мультиисточниковых и многоязычных данных, демонстрируя отличный результат в базовых возможностях, таких как многоязычный диалог, а также в коде и математике....

Total Context:

66K

Max output:

66K

Input:

0.1

/ M Tokens

Output:

0.4

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Thinking

Выпуск: 4 окт. 2025 г.

Qwen3-Omni-30B-A3B-Thinking является ядром компонента "Thinker" в архитектуре "Thinker-Talker" омни-модальной модели Qwen3-Omni. Он специально разработан для обработки мультимодальных входных данных, включая Text, Audio, Image и Video, и выполнения сложных цепочек мыслительных рассуждений. Будучи разумом системы, эта Model объединяет все Inputs в общее представительное пространство для понимания и анализа, но его Output – только Text. Этот дизайн позволяет ему превосходно решать сложные задачи, требующие глубокого раздумья и межмодального понимания, такие как математические задачи, представленные в изображениях, что делает его ключевым для мощных когнитивных способностей всей архитектуры Qwen3-Omni....

Total Context:

66K

Max output:

66K

Input:

0.1

/ M Tokens

Output:

0.4

/ M Tokens

Qwen

Text-to-Image

Qwen-Image

Выпуск: 15 сент. 2025 г.

0.02

/ Image

Qwen

Image-to-Image

Qwen-Image-Edit

Выпуск: 18 сент. 2025 г.

0.04

/ Image

Qwen

Text Generation

Qwen3-Coder-480B-A35B-Instruct

Выпуск: 31 июл. 2025 г.

Qwen3-Coder-480B-A35B-Instruct является самым агентным кодовым Model'ом, выпущенным Alibaba на сегодняшний день. Это модель Mixture-of-Experts (MoE) с общим количеством параметров в 480 миллиардов и 35 миллиардов активированных параметров, достигая баланса между эффективностью и производительностью. Model поддерживает длину контекста в 256K (примерно 262,144) token'ов, которую можно продлить до 1 миллиона token'ов с использованием экстраполяционных методов, таких как YaRN, что позволяет обрабатывать коды репозитарного масштаба и сложные программные задачи. Qwen3-Coder специально разработан для агентных рабочих процессов кодирования, где он не только генерирует код, но и автономно взаимодействует с инструментами разработчика и средами для решения сложных задач. Он достиг передовых результатов среди открытых моделей на различных агентных бенчмарках кодирования, с производительностью, сопоставимой с ведущими Model'ами, такими как Claude Sonnet 4. Наряду с Model'ом, Alibaba также открыла исходный код Qwen Code, инструмент командной строки, разработанный для полного раскрытия мощных агентных возможностей кодирования....

Total Context:

262K

Max output:

262K

Input:

0.25

/ M Tokens

Output:

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-30B-A3B-Instruct

Выпуск: 1 авг. 2025 г.

Qwen3-Coder-30B-A3B-Instruct — это кодовый Model из серии Qwen3, разработанный командой Qwen компании Alibaba. Как упрощенный и оптимизированный Model, он поддерживает впечатляющую производительность и эффективность, сосредотачиваясь на усовершенствованных возможностях кодирования. Он демонстрирует значительное преимущество в производительности среди open-source Models на сложных задачах, таких как агентское кодирование, использование агентского браузера и другие основные задачи кодирования. Model изначально поддерживает долгий контекст из 256K Tokens, который может быть расширен до 1M Tokens, что позволяет лучше понимать и обрабатывать репозитории. Более того, он обеспечивает надежную поддержку агентского кодирования для платформ, таких как Qwen Code и CLINE, с специально разработанным форматом вызова функций....

Total Context:

262K

Max output:

262K

Input:

0.07

/ M Tokens

Output:

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Instruct-2507

Выпуск: 30 июл. 2025 г.

Qwen3-30B-A3B-Instruct-2507 — это обновленная версия Qwen3-30B-A3B в режиме без мышления. Это модель (Model) Соединения Экспертов (MoE) с общим количеством параметров 30,5 миллиардов и 3,3 миллиардами активированных параметров. Эта версия обладает ключевыми улучшениями, включая значительные улучшения в общих способностях, таких как следование инструкциям, логическое рассуждение, понимание текста, математика, наука, программирование и использование инструментов. Она также демонстрирует существенные достижения в покрытии долгосрочных знаний на разных языках и предлагает заметно лучшее соответствие с пользовательскими предпочтениями в субъективных и открытых заданиях, что позволяет предоставлять более полезные ответы и создавать высококачественный текст. Более того, её возможности в понимании контекста на дальние расстояния были улучшены до 256K. Эта модель поддерживает только режим без мышления и не генерирует блоки `<think></think>` в своем Output....

Total Context:

262K

Max output:

262K

Input:

0.09

/ M Tokens

Output:

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Thinking-2507

Выпуск: 31 июл. 2025 г.

Qwen3-30B-A3B-Thinking-2507 — это последняя мыслительная Model в серии Qwen3, выпущенная командой Qwen компании Alibaba. Как модель Смешения экспертов (MoE) с общим числом параметров 30,5 миллиардов и активными параметрами 3,3 миллиарда, она сосредоточена на улучшении возможностей для выполнения сложных задач. Model демонстрирует значительно улучшенную производительность в решении задач, требующих рассуждений, включая логические рассуждения, математику, науку, программирование и академические эталоны, которые обычно требуют человеческой экспертизы. Она также показывает заметно более хорошие общие способности, такие как следование инструкциям, использование инструментов, генерация Text и выравнивание с человеческими предпочтениями. Model изначально поддерживает возможность понимания в длинном контексте длиной до 256 тысяч и может быть расширена до 1 миллиона tokens. Эта версия специально разработана для 'режима мышления' для решения очень сложных проблем через пошаговое рассуждение и также выделяется в агентных способностях....

Total Context:

262K

Max output:

131K

Input:

0.09

/ M Tokens

Output:

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Instruct-2507

Выпуск: 23 июл. 2025 г.

Qwen3-235B-A22B-Instruct-2507 — флагманская модель на основе смеси экспертов (Mixture-of-Experts, MoE) из серии Qwen3, разработанная командой Qwen от Alibaba Cloud. Эта Model обладает общим количеством 235 миллиардов параметров, из которых 22 миллиарда активируются при каждом проходе вперед. Она была выпущена как обновленная версия режима без мышления Qwen3-235B-A22B, с значительными улучшениями в общих возможностях, таких как следование инструкциям, логическое рассуждение, понимание Text, математика, наука, кодирование и использование инструментов. Кроме того, Model обеспечивает значительное улучшение в покрытии знания длинного хвоста на нескольких языках и демонстрирует заметно лучшее согласование с предпочтениями пользователей в субъективных и открытых задачах, что позволяет генерировать более полезные ответы и Text более высокого качества. В частности, она нативно поддерживает обширное окно контекста размером 256K (262 144 tokens), что повышает её возможности для понимания длинных контекстов. Эта версия исключительно поддерживает режим без мышления и не генерирует блоки <think>, стремясь предоставить более эффективные и точные ответы для задач, таких как прямые вопросы и ответы, и извлечение знаний....

Total Context:

262K

Max output:

262K

Input:

0.09

/ M Tokens

Output:

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Thinking-2507

Выпуск: 28 июл. 2025 г.

Qwen3-235B-A22B-Thinking-2507 является членом серии больших языковых Model Qwen3, разработанной командой Qwen компании Alibaba, специализирующейся на задачах сложного рассуждения. Model построена на архитектуре Mixture-of-Experts (MoE), с общим количеством параметров в 235 миллиардов и примерно 22 миллиардов активированных параметров на token, что повышает вычислительную эффективность при сохранении мощной производительности. Как специализированная 'мыслящая' Model, она демонстрирует значительно улучшенные результаты в выполнении задач, требующих человеческой экспертности, таких как логическое рассуждение, математика, наука, кодирование и академические контрольные показатели, достигая наивысших результатов среди моделей с открытым исходным кодом для мышления. Кроме того, Model имеет расширенные общие возможности, такие как следование инструкциям, использование инструментов и генерация Text, и нативно поддерживает способность восприятия в длинном контексте 256K, что делает её идеальной для сценариев, требующих глубоких размышлений и обработки длинных документов....

Total Context:

262K

Max output:

262K

Input:

0.13

/ M Tokens

Output:

0.6

/ M Tokens

StepFun

Text Generation

step3

Выпуск: 6 авг. 2025 г.

Шаг 3 — это революционный модель многоуровневого рассуждения от StepFun. Она построена на архитектуре Mixture-of-Experts (MoE) с общим количеством параметров 321 млрд и 38 млрд активных параметров. Модель разработана по принципу «от начала до конца», чтобы минимизировать затраты на декодирование, обеспечивая первоклассную производительность в области Vision-языкового рассуждения. Посредством совместной разработки Multi-Matrix Factorization Attention (MFA) и Disaggregation Attention-FFN (AFD), Step3 поддерживает исключительную эффективность как на флагманских, так и на низкоклассных ускорителях. Во время предобучения Step3 обработала более 20 трлн text tokens и 4 трлн image-text смешанных tokens на более чем десяти языках. Модель достигла передовой производительности среди моделей с открытым исходным кодом на различных тестах, включая математику, код и Multimodal....

Total Context:

66K

Max output:

66K

Input:

0.57

/ M Tokens

Output:

1.42

/ M Tokens

ByteDance

Text Generation

Seed-OSS-36B-Instruct

Выпуск: 4 сент. 2025 г.

Seed-OSS — это серия крупных языковых моделей с открытым исходным кодом, разработанных командой ByteDance Seed, предназначенная для мощной обработки длинных контекстов, рассуждений, агентных возможностей и универсальных способностей. В этой серии Seed-OSS-36B-Instruct представляет собой настроенную на инструкции модель с 36 миллиардами параметров, которая изначально поддерживает ультрадлинную длину контекста, что позволяет ей обрабатывать массивные документы или сложные кодовые базы в один проход. Модель специально оптимизирована для рассуждений, генерации кода и агентных задач (таких как использование инструментов), сохраняя при этом сбалансированные и отличные универсальные возможности. Ключевой особенностью этой модели является функция «Бюджет мышления», которая позволяет пользователям гибко регулировать длину рассуждений по мере необходимости, тем самым эффективно повышая эффективность Inference в практических приложениях....

Total Context:

262K

Max output:

262K

Input:

0.21

/ M Tokens

Output:

0.57

/ M Tokens

Z.ai

Text Generation

GLM-4.1V-9B-Thinking

Выпуск: 4 июл. 2025 г.

GLM-4.1V-9B-Thinking — это открытая Vision-Language Model (VLM), совместно выпущенная Zhipu AI и лабораторией KEG Университета Цинхуа, разработанная для продвижения универсального мультимодального рассуждения. Основанная на базовой модели GLM-4-9B-0414, она вводит 'парадигму мышления' и использует обучение с подкреплением с выборочным обучением (RLCS) для значительного улучшения своих возможностей в сложных задачах. Будучи моделью с 9B параметрами, она достигает передовых результатов среди моделей аналогичного размера, а её результаты сопоставимы или даже превосходят гораздо более крупную модель Qwen-2.5-VL-72B с 72B параметрами на 18 различных тестах. Модель превосходно справляется с разнообразными задачами, включая решение STEM задач, понимание Video и длинных документов, а также она может обрабатывать Image с разрешением до 4K и произвольными соотношениями сторон....

Total Context:

66K

Max output:

66K

Input:

0.035

/ M Tokens

Output:

0.14

/ M Tokens

BAIDU

Text Generation

ERNIE-4.5-300B-A47B

Выпуск: 2 июл. 2025 г.

ERNIE-4.5-300B-A47B — это крупная языковая Model, разработанная Baidu на основе архитектуры Mixture-of-Experts (MoE). У этой Model в общей сложности 300 миллиардов параметров, но во время Inference активируется только 47 миллиардов параметров на один token, что позволяет сбалансировать мощную производительность с вычислительной эффективностью. Будучи одной из основных Models в серии ERNIE 4.5, она обучена на платформе глубокого обучения PaddlePaddle и демонстрирует выдающиеся возможности в таких задачах, как Text понимание, генерация, логическое мышление и кодирование. Model использует инновационный Multimodal гетерогенный метод предварительного обучения MoE, который эффективно улучшает ее общие способности через совместное обучение на тексте и визуальных модальностях, показывая выдающиеся результаты в следовании инструкциям и запоминании мировых знаний. Baidu открыла исходный код этой Model, а также других в серии, чтобы способствовать исследованию и применению AI технологии....

Total Context:

131K

Max output:

131K

Input:

0.28

/ M Tokens

Output:

1.1

/ M Tokens

Tencent

Text Generation

Hunyuan-A13B-Instruct

Выпуск: 30 июн. 2025 г.

Hunyuan-A13B-Instruct активирует только 13 B из своих 80 B параметров, но при этом соответствует более крупным LLM на основных бенчмарках. Он предлагает гибридное рассуждение: режим с низкой задержкой "быстрый" или режим с высокой Precision "медленный", переключаемый при каждом вызове. Родной контекст 256 K-token позволяет обрабатывать документы книжной длины без деградации. Навыки агента настроены для лидерства в BFCL-v3, τ-Bench и C3-Bench, что делает его отличной автономной основой для помощника. Группированное внимание к запросам плюс многоформатная квантизация обеспечивают легкое по памяти и эффективное использование GPU Inference для реального внедрения, с встроенной мультиязычной поддержкой и надежным согласованием безопасности для приложений корпоративного уровня....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Output:

0.57

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct

Выпуск: 13 июл. 2025 г.

Kimi K2 — это базовая модель со смесью экспертов (Mixture-of-Experts, MoE) с исключительными возможностями кодирования и агентирования, содержащая 1 триллион общих параметров и 32 миллиарда активированных параметров. В оценках по эталонным тестам, охватывающим общие знания, программирование, математику и задачи, связанные с агентами, модель K2 превосходит другие ведущие модели с открытым исходным кодом....

Total Context:

131K

Max output:

131K

Input:

0.58

/ M Tokens

Output:

2.29

/ M Tokens

Moonshot AI

Text Generation

Kimi-Dev-72B

Выпуск: 19 июн. 2025 г.

Kimi-Dev-72B — это новая модель крупного открытого исходного кода для кодирования, достигшая 60,4% на SWE-bench Verified, устанавливая передовой результат среди открытых моделей. Оптимизирована через масштабное обучение с подкреплением, она автономно исправляет реальные кодовые базы в Docker и получает вознаграждение только при успешном прохождении полного тестового набора. Это гарантирует, что модель предоставляет правильные, надежные и практичные решения, соответствующие стандартам реального мира программной инженерии....

Total Context:

131K

Max output:

131K

Input:

0.29

/ M Tokens

Output:

1.15

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M1-80k

Выпуск: 17 июн. 2025 г.

МиниМакс-М1 — это модель гибридного внимания с открытым весом и крупномасштабным моделированием с 456 млрд параметрами и 45,9 млрд активированными на каждый token. Она изначально поддерживает контекст с 1 млн token, молниеносное внимание, обеспечивающее экономию 75% FLOPs по сравнению с DeepSeek R1 на 100 тыс. tokens, и использует архитектуру MoE. Эффективное обучение с подкреплением с CISPO и гибридный дизайн обеспечивают передовую производительность на задачах долгосрочного reasoning и задачах реального инжиниринга программного обеспечения....

Total Context:

131K

Max output:

131K

Input:

0.55

/ M Tokens

Output:

2.2

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B

Выпуск: 30 апр. 2025 г.

Qwen3-30B-A3B — это последняя крупная языковая Model в серии Qwen, имеющая архитектуру с комбинацией экспертов (MoE) с общим числом параметров 30,5B и активированными параметрами 3,3B. Этот Model уникально поддерживает плавное переключение между режимом мышления (для сложных логических рассуждений, математики и кодирования) и режимом не-мышления (для эффективного, универсального диалога). Он демонстрирует значительно улучшенные способности в рассуждении, превосходное выравнивание предпочтений человека в создании креативных текстов, ролевых игр и многоходовых диалогах. Model отличается отличными агентными способностями для точной интеграции с внешними инструментами и поддерживает более 100 языков и диалектов с сильными возможностями многоязычного инструкционного следования и перевода....

Total Context:

131K

Max output:

131K

Input:

0.09

/ M Tokens

Output:

0.45

/ M Tokens

Qwen

Text Generation

Qwen3-32B

Выпуск: 30 апр. 2025 г.

Qwen3-32B — это последняя большая языковая модель в серии Qwen с 32.8 миллиардами параметров. Эта модель уникально поддерживает плавное переключение между режимом мышления (для сложного логического рассуждения, математики и программирования) и режимом немышления (для эффективного, универсального диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие instruct модели QwQ и Qwen2.5 в математике, генерации кода и логическом рассуждении на уровне здравого смысла. Модель превосходит в выравнивании человеческих предпочтений для творческого письма, ролевых игр и диалогов с множественными ходами. Кроме того, она поддерживает более 100 языков и диалектов с сильными возможностями следования многоязычным инструкциям и перевода....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Output:

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-14B

Выпуск: 30 апр. 2025 г.

Qwen3-14B — это последняя большая языковая Model в серии Qwen с 14.8 миллиардами параметров. Эта Model уникально поддерживает бесшовное переключение между режимом мышления (для сложного логического мышления, математики и программирования) и режимом немышления (для эффективного, универсального диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие instruct-модели QwQ и Qwen2.5 в математике, генерации кода и логическом рассуждении на уровне здравого смысла. Model превосходит в согласовании предпочтений человека для креативного письма, ролевых игр и многоходовых диалогов. Кроме того, она поддерживает более 100 языков и диалектов с сильными возможностями мульти-языковых инструкций и переводов....

Total Context:

131K

Max output:

131K

Input:

0.07

/ M Tokens

Output:

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-8B

Выпуск: 30 апр. 2025 г.

Qwen3-8B — это последняя крупная языковая модель в серии Qwen с параметрами 8.2B. Эта модель уникально поддерживает бесперебойное переключение между режимом мышления (для сложного логического рассуждения, математики и программирования) и режимом немысли (для эффективного, общего диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие модели QwQ и Qwen2.5 в обучении математике, генерации кода и логическом рассуждении здравого смысла. Модель преуспевает в соотношении человеческих предпочтений для креативного письма, ролевых игр и многошаговых диалогов. Кроме того, она поддерживает более 100 языков и диалектов с сильными мультиязычными инструкциями и возможностями перевода....

Total Context:

131K

Max output:

131K

Input:

0.06

/ M Tokens

Output:

0.06

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-8B

Выпуск: 6 июн. 2025 г.

Qwen3-Reranker-8B — это модель повторного ранжирования текста с 8 миллиардами параметров из серии Qwen3. Она разработана для улучшения и повышения качества результатов поиска путем точного переупорядочивания документов на основе их релевантности запросу. Построенная на мощных фундаментальных моделях Qwen3, она отлично понимает длинный текст с контекстной длиной в 32k и поддерживает более 100 языков. Модель Qwen3-Reranker-8B является частью гибкой серии, которая предлагает передовые возможности в различных сценариях поиска текста и кода....

0.04

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-8B

Выпуск: 6 июн. 2025 г.

Qwen3-Embedding-8B — это последняя проприетарная Model в серии Qwen3 Embedding, специально разработанная для задач встраивания и ранжирования Text. Построенная на основе плотных фундаментальных моделей серии Qwen3, эта модель с 8 миллиардами параметров поддерживает длину контекста до 32K и может генерировать встраивания с размерами до 4096. Model наследует исключительные мультиязыковые возможности, поддерживающие более 100 языков, а также навыки понимания и рассуждения с длинными Text. Она занимает первое место в многоязычном рейтинге MTEB (по состоянию на 5 июня 2025 года, оценка 70.58) и демонстрирует передовые показатели в различных задачах, включая извлечение Text, извлечение кода, классификацию Text, кластеризацию и битекстовый майнинг. Model предлагает гибкие размеры векторов (от 32 до 4096) и возможности, учитывающие инструкции, для улучшения производительности в определённых задачах и сценариях....

Input:

0.04

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-4B

Выпуск: 6 июн. 2025 г.

Qwen3-Reranker-4B — это мощная модель повторной оценки Text из серии Qwen3, содержащая 4 миллиарда параметров. Она разработана для значительного повышения релевантности результатов поиска путем переупорядочивания начального списка документов на основе запроса. Эта Model наследует основные преимущества своей основы Qwen3, включая исключительное понимание длинного Text (до 32k контекста) и надежные возможности в более чем 100 языках. Согласно бенчмаркам, Model Qwen3-Reranker-4B демонстрирует превосходную производительность в различных оценках извлечения Text и кода....

0.02

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-4B

Выпуск: 6 июн. 2025 г.

Qwen3-Embedding-4B является последней проприетарной моделью в серии Qwen3 Embedding, специально разработанной для задач эмбеддинга текстов и ранжирования. Построенная на основе плотных основополагающих моделей серии Qwen3, эта модель с 4 миллиардами параметров поддерживает длины контекста до 32 тысяч и может генерировать эмбединги с размерностями до 2560. Модель наследует исключительные возможности мультиязычной поддержки, охватывающие более 100 языков, а также навыки понимания и анализа длинных текстов. Она достигает отличных результатов на многоязычном рейтинге MTEB (оценка 69.45) и демонстрирует выдающиеся результаты в различных задачах, включая поиск текста, поиск кода, классификацию текстов, кластеризацию и добычу двуязычных текстов. Модель предлагает гибкие размерности векторов (от 32 до 2560) и возможности с учетом инструкций для улучшенной производительности в конкретных задачах и сценариях, обеспечивая оптимальный баланс между эффективностью и эффективностью....

Input:

0.02

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-0.6B

Выпуск: 6 июн. 2025 г.

Qwen3-Reranker-0.6B — это Text модель упорядочивания из серии Qwen3. Она специально предназначена для уточнения результатов начальных систем поиска, переставляя документы на основе их релевантности данному запросу. Имея 0.6 миллиардов параметров и длину контекста 32k, эта Model использует сильные многолингвальные (поддерживающие более 100 языков), способности к пониманию длинных текстов и умозаключение своей Qwen3 платформы. Результаты оценки показывают, что Qwen3-Reranker-0.6B достигает высокого уровня производительности по различным критериям поиска текстов, включая MTEB-R, CMTEB-R и MLDR....

0.01

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-0.6B

Выпуск: 6 июн. 2025 г.

Qwen3-Embedding-0.6B является последней проприетарной моделью в серии Qwen3 Embedding, специально разработанной для задач текстового встраивания и ранжирования. Построенная на основе плотных фундаментальных моделей серии Qwen3, эта модель с 0.6B параметрами поддерживает длины контекста до 32K и может генерировать встраивания с размерами до 1024. Модель наследует исключительные мультиязычные возможности, поддерживающие более 100 языков, а также навыки понимания длинного текста и рассуждения. Она достигает высокой производительности на многоязычной лидерборде MTEB (оценка 64.33) и демонстрирует отличные результаты в различных задачах, включая извлечение текста, извлечение кода, классификацию текста, кластеризацию и майнинг двуязычных текстов. Модель предлагает гибкие размеры векторов (от 32 до 1024) и возможности, осведомленные об инструкциях, для улучшенной производительности в конкретных задачах и сценариях, делая её идеальным выбором для приложений, приоритетизирующих как эффективность, так и результативность....

Input:

0.01

/ M Tokens

Black Forest Labs

Text-to-Image

FLUX.1 Kontext [pro]

Выпуск: 11 июл. 2025 г.

0.04

/ Image

Black Forest Labs

Text-to-Image

FLUX.1 Kontext [max]

Выпуск: 11 июл. 2025 г.

0.08

/ Image

Black Forest Labs

Text-to-Image

FLUX 1.1 [pro] Ultra

Выпуск: 11 июл. 2025 г.

0.06

/ Image

Black Forest Labs

Text-to-Image

FLUX 1.1 [pro]

Выпуск: 11 июл. 2025 г.

0.04

/ Image

Black Forest Labs

Image-to-Image

FLUX.1-Kontext-dev

Выпуск: 27 июн. 2025 г.

0.015

/ Image

Z.ai

Text Generation

GLM-Z1-32B-0414

Выпуск: 18 апр. 2025 г.

GLM-Z1-32B-0414 — это модель рассуждения с глубокими возможностями мышления. Эта Model была разработана на основе GLM-4-32B-0414 через холодный старт и расширенное обучение с подкреплением, а также дальнейшее обучение на задачах, связанных с математикой, кодом и логикой. По сравнению с базовой Model, GLM-Z1-32B-0414 значительно улучшает математические способности и способность решать сложные задачи. В ходе тренировочного процесса команда также внедрила общее обучение с подкреплением на основе парных ранжированных отзывов, что еще больше улучшило общие возможности модели. Несмотря на то, что она имеет только 32B параметров, её производительность в некоторых задачах сопоставима с DeepSeek-R1 с 671B параметрами. В ходе оценок на таких тестах, как AIME 24/25, LiveCodeBench и GPQA, модель демонстрирует сильные математические способности к рассуждению и может поддерживать решения для более широкого спектра сложных задач....

Total Context:

131K

Max output:

131K

Input:

0.14

/ M Tokens

Output:

0.57

/ M Tokens

Z.ai

Text Generation

GLM-4-32B-0414

Выпуск: 18 апр. 2025 г.

GLM-4-32B-0414 — это модель нового поколения в семействе GLM с 32 миллиардами параметров. Её производительность сопоставима с серией GPT от OpenAI и серией V3/R1 от DeepSeek, а также она поддерживает очень удобные функции локального развертывания. GLM-4-32B-Base-0414 была предварительно обучена на 15 триллионах качественных данных, включая большое количество синтетических данных для рассуждений, что становится основой для последующих расширений обучения с подкреплением. На этапе пост-тренировки, помимо выравнивания по человеческим предпочтениям для сценариев диалогов, команда улучшила производительность Model в следовании инструкциям, инженерному коду и вызову функций с использованием таких технологий, как выборка отклонений и обучение с подкреплением, усиливая атомарные возможности, необходимые для агентских задач. GLM-4-32B-0414 достигает хороших результатов в таких областях, как инженерный код, генерация артефактов, вызовы функций, поисковые вопросы и ответы, а также генерация отчетов. На нескольких тестах её производительность приближается или даже превышает производительность более крупных моделей, таких как GPT-4o и DeepSeek-V3-0324 (671B)...

Total Context:

33K

Max output:

33K

Input:

0.27

/ M Tokens

Output:

0.27

/ M Tokens

Z.ai

Text Generation

GLM-Z1-9B-0414

Выпуск: 18 апр. 2025 г.

GLM-Z1-9B-0414 является малогабаритным Model в серии GLM, с всего лишь 9 миллиардами параметров, которая сохраняет традиции открытого исходного кода и демонстрирует удивительные возможности. Несмотря на ее меньший масштаб, GLM-Z1-9B-0414 все же демонстрирует отличную производительность в математических рассуждениях и общих задачах. Ее общая производительность уже находится на ведущем уровне среди открытых Model того же размера. Исследовательская группа использовала те же методы, что и для более крупных Model, для обучения этой 9B Model. Особенно в условиях ограниченности ресурсов эта Model достигает отличного баланса между эффективностью и результативностью, предоставляя мощный вариант для пользователей, ищущих легковесное развертывание. Model обладает способностями глубокого мышления и может обрабатывать длительные контексты благодаря технологии YaRN, что делает ее особенно подходящей для приложений, требующих математических рассуждений с ограниченными вычислительными ресурсами....

Total Context:

131K

Max output:

131K

Input:

0.086

/ M Tokens

Output:

0.086

/ M Tokens

Z.ai

Text Generation

GLM-4-9B-0414

Выпуск: 18 апр. 2025 г.

GLM-4-9B-0414 — это модель небольшого размера в серии GLM с 9 миллиардами параметров. Эта модель наследует технические характеристики серии GLM-4-32B, но предлагает более легкий вариант развертывания. Несмотря на меньший масштаб, GLM-4-9B-0414 по-прежнему демонстрирует отличные возможности в генерации кода, веб-дизайне, генерации SVG графики и задачах написания на основе поиска. Модель также поддерживает функции вызова функций, что позволяет ей вызывать внешние инструменты для расширения своих возможностей. Модель демонстрирует хорошее соотношение между эффективностью и результативностью в условиях ограниченных ресурсов, предоставляя мощный вариант для пользователей, которым необходимо развертывать AI модели при ограниченных вычислительных ресурсах. Как и другие модели в той же серии, GLM-4-9B-0414 также демонстрирует конкурентоспособную производительность в различных тестах на сравнение....

Total Context:

33K

Max output:

33K

Input:

0.086

/ M Tokens

Output:

0.086

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-32B-Instruct

Выпуск: 24 мар. 2025 г.

Qwen2.5-VL-32B-Instruct — это мультимодальная большая языковая модель, выпущенная командой Qwen, являющаяся частью серии Qwen2.5-VL. Эта Model не только умеет распознавать обычные объекты, но и обладает высокой способностью анализировать тексты, диаграммы, иконки, графику и макеты внутри Image. Она действует как визуальный агент, который может рассуждать и динамично направлять инструменты, способный использовать компьютеры и телефоны. Кроме того, Model может точно локализовать объекты в Image и генерировать структурированные Outputs для данных, таких как счета и таблицы. По сравнению с его предшественником Qwen2-VL, эта версия улучшила математические и задачи решения через обучение с подкреплением, со стилями ответов, настроенными для лучшего соответствия человеческим предпочтениям....

Total Context:

131K

Max output:

131K

Input:

0.27

/ M Tokens

Output:

0.27

/ M Tokens

Qwen

Text Generation

QwQ-32B

Выпуск: 6 мар. 2025 г.

QwQ — это рассуждающая модель серии Qwen. По сравнению с обычными моделями с настройкой на инструкции, QwQ, способная думать и рассуждать, может добиться значительно улучшенной производительности в последующих задачах, особенно в сложных проблемах. QwQ-32B — это средняя по размеру рассуждающая модель, способная достигать конкурентных показателей в сравнении с передовыми рассуждающими моделями, например, DeepSeek-R1, o1-mini. Модель включает такие технологии, как RoPE, SwiGLU, RMSNorm и Attention QKV bias, с 64 слоями и 40 Q головы внимания (8 для KV в архитектуре GQA)...

Total Context:

131K

Max output:

131K

Input:

0.15

/ M Tokens

Output:

0.58

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-72B-Instruct

Выпуск: 28 янв. 2025 г.

Qwen2.5-VL — это Vision-Text Model в серии Qwen2.5, который демонстрирует значительные улучшения во многих аспектах: он обладает сильными возможностями визуального понимания, распознавая общие объекты при анализе Text, диаграмм и макетов в Image; он функционирует как визуальный агент, способный к рассуждениям и динамическому направлению инструментов; он может понимать Video продолжительностью более 1 часа и фиксировать ключевые события; он точно локализует объекты в Image, генерируя ограничивающие рамки или точки; и поддерживает структурированные Outputs для отсканированных данных, таких как счета и формы. Model демонстрирует отличные результаты на различных тестах, включая Image, Video и агентные задачи....

Total Context:

131K

Max output:

Input:

0.59

/ M Tokens

Output:

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-7B-Instruct

Выпуск: 28 янв. 2025 г.

Qwen2.5-VL — это новый член серии Qwen, оснащённый мощными визуальными возможностями понимания. Он может анализировать Text, диаграммы и макеты в Image, понимать длинные Video и фиксировать события. Он способен рассуждать, манипулировать инструментами, поддерживать локализацию объектов с несколькими форматами и генерировать структурированные Output. Модель была оптимизирована для динамического разрешения и обучения на частоте кадров в понимании Video и повысила эффективность визуального энкодера....

Total Context:

33K

Max output:

Input:

0.05

/ M Tokens

Output:

0.05

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-32B

Выпуск: 20 янв. 2025 г.

DeepSeek-R1-Distill-Qwen-32B является дистиллированной Model на основе Qwen2.5-32B. Модель была тонко настроена с использованием 800 тысяч отобранных образцов, сгенерированных DeepSeek-R1, и демонстрирует исключительную производительность в задачах по математике, программированию и рассуждениям. Она достигла впечатляющих результатов в различных тестах, включая AIME 2024, MATH-500 и GPQA Diamond, с заметной точностью 94,3% на MATH-500, демонстрируя её сильные математические способности....

Total Context:

131K

Max output:

131K

Input:

0.18

/ M Tokens

Output:

0.18

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-14B

Выпуск: 20 янв. 2025 г.

DeepSeek-R1-Distill-Qwen-14B — это дистиллированная модель, основанная на Qwen2.5-14B. Модель была доработана с использованием 800 тысяч отобранных образцов, созданных DeepSeek-R1, и демонстрирует сильные способности к аргументации. Она достигла впечатляющих результатов на различных тестах, включая 93,9% точности на MATH-500, 69,7% проходного балла на AIME 2024 и рейтинг 1481 на CodeForces, демонстрируя свои мощные способности в решении задач по математике и программированию....

Total Context:

131K

Max output:

131K

Input:

0.1

/ M Tokens

Output:

0.1

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-7B

Выпуск: 20 янв. 2025 г.

DeepSeek-R1-Distill-Qwen-7B представляет собой дистиллированную модель, основанную на Qwen2.5-Math-7B. Модель была тонко настроена с использованием 800 тысяч курированных примеров, созданных DeepSeek-R1, и демонстрирует сильные способности к рассуждению. Она достигла впечатляющих результатов в различных бенчмарках, включая 92,8% точности на MATH-500, 55,5% проходного балла на AIME 2024 и рейтинг 1189 на CodeForces, показывая выдающиеся математические и программные способности для модели масштаба 7B....

Total Context:

33K

Max output:

16K

Input:

0.05

/ M Tokens

Output:

0.05

/ M Tokens

Qwen

Text Generation

Qwen2.5-Coder-32B-Instruct

Выпуск: 11 нояб. 2024 г.

Qwen2.5-Coder-32B-Instruct — это большая языковая модель, специфичная для кода, разработанная на основе Qwen2.5. Модель прошла обучение на 5.5 триллиона токенов, достигая значительных улучшений в генерации кода, логике кода и его исправлении. В настоящее время это самая продвинутая модель открытого исходного кода, с возможностями кодирования, сопоставимыми с GPT-4. Модель не только улучшила способности кодирования, но и сохраняет сильные стороны в математике и общих возможностях, а также поддерживает обработку длинных Text....

Total Context:

33K

Max output:

Input:

0.18

/ M Tokens

Output:

0.18

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct-128K

Выпуск: 18 сент. 2024 г.

Qwen2.5-72B-Instruct является одной из последних серий крупных языковых моделей, выпущенных Alibaba Cloud. Эта модель 72B демонстрирует значительные улучшения в таких областях, как программирование и математика. Она поддерживает длину контекста до 128K tokens. Модель также предлагает многоязычную поддержку, охватывая более 29 языков, включая китайский, английский и другие. Она показала заметные улучшения в следовании инструкциям, понимании структурированных данных и создании структурированных Outputs, особенно в формате JSON....

Total Context:

131K

Max output:

Input:

0.59

/ M Tokens

Output:

0.59

/ M Tokens

DeepSeek

Text Generation

deepseek-vl2

Выпуск: 13 дек. 2024 г.

DeepSeek-VL2 — это смешанный эксперт (MoE) Vision-языковая Model, разработанная на базе DeepSeekMoE-27B, использующая разреженную активированную MoE архитектуру для достижения превосходной производительности при всего 4.5B активных параметрах. Model превосходит в различных задачах, включая визуальные вопросы и ответы, оптическое распознавание символов, понимание документов/таблиц/графиков и визуальное заземление. В сравнении с существующими опенсорсными плотными моделями и моделями на основе MoE, она демонстрирует конкурентные или передовые показатели производительности, используя те же или меньшее количество активных параметров....

Total Context:

Max output:

Input:

0.15

/ M Tokens

Output:

0.15

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct

Выпуск: 18 сент. 2024 г.

Qwen2.5-72B-Instruct является одной из последних серий больших языковых моделей, выпущенных Alibaba Cloud. Модель 72B демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает многоязычную поддержку, охватывая более 29 языков, включая китайский и английский. Она показывает заметные улучшения в следовании инструкциям, понимании структурированных данных и генерации структурированных Output, в частности, в формате JSON....

Total Context:

33K

Max output:

Input:

0.59

/ M Tokens

Output:

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-32B-Instruct

Выпуск: 19 сент. 2024 г.

Qwen2.5-32B-Instruct — это одна из последних серий крупных языковых моделей, выпущенных Alibaba Cloud. Эта модель 32B демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает поддержку нескольких языков, охватывающую более 29 языков, включая китайский, английский и другие. Она показывает заметные улучшения в следовании инструкциям, понимании структурированных данных и генерации структурированных Output, особенно в формате JSON....

Total Context:

33K

Max output:

Input:

0.18

/ M Tokens

Output:

0.18

/ M Tokens

Qwen

Text Generation

Qwen2.5-14B-Instruct

Выпуск: 18 сент. 2024 г.

Qwen2.5-14B-Instruct является одной из последних серий крупных языковых моделей, выпущенных Alibaba Cloud. Эта модель с 14B демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает поддержку нескольких языков, охватывая более 29 языков, включая китайский и английский. Она показала заметные достижения в следовании инструкциям, понимании структурированных данных и генерации структурированных Outputs, особенно в формате JSON....

Total Context:

33K

Max output:

Input:

0.1

/ M Tokens

Output:

0.1

/ M Tokens

Qwen

Text Generation

Qwen2.5-7B-Instruct

Выпуск: 18 сент. 2024 г.

Qwen2.5-7B-Instruct является одной из последних серий больших языковых моделей, выпущенных Alibaba Cloud. Эта 7B Model демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает многоязыковую поддержку, охватывая более 29 языков, включая китайский, английский и другие. Модель показывает заметные улучшения в следовании инструкциям, понимании структурированных данных и генерации структурированных Output, особенно JSON....

Total Context:

33K

Max output:

Input:

0.05

/ M Tokens

Output:

0.05

/ M Tokens

IndexTeam

Text-to-Speech

IndexTTS-2

Выпуск: 10 сент. 2025 г.

IndexTTS2 — это прорывная авто-регрессивная модель текст-в-речь (Text-to-Speech, TTS) с нулевым обучением, разработанная для решения задачи точного управления продолжительностью в крупномасштабных TTS системах, что является значительным ограничением в таких приложениях, как видеодублирование. Она вводит новую общую методику управления продолжительностью речи, поддерживая два режима: один, который явно указывает число генерируемых токенов для точной продолжительности, и другой, который позволяет свободно генерировать речь в авто-регрессивном режиме. Кроме того, IndexTTS2 достигает отделения эмоционального выражения от идентичности диктора, обеспечивая независимое управление тембром и эмоцией через отдельные подсказки. Для повышения ясности речи в условиях высокоэмоциональных выражений модель включает в себя латентные представления GPT и использует новую трехэтапную парадигму обучения. Чтобы снизить порог для управления эмоциями, она также включает механизм мягкой инструкции на основе текстовых описаний, разработанный с помощью Fine-tuning Qwen3, чтобы эффективно направлять генерацию речи с желаемым эмоциональным тоном. Экспериментальные результаты показывают, что IndexTTS2 превосходит лучшие на сегодняшний день модели TTS с нулевым обучением по количеству ошибок в словах, сходству с диктором и эмоциональной точности на различных наборах данных....

7.15

/ M UTF-8 bytes

Meta Llama

Text Generation

Meta-Llama-3.1-8B-Instruct

Выпуск: 23 апр. 2025 г.

Meta Llama 3.1 — это семейство многоязычных больших языковых моделей, разработанных компанией Meta, с предобученными и инструкционно-настроенными вариантами в размерах 8B, 70B и 405B параметров. Эта 8B инструкционно-настроенная Model оптимизирована для многоязычных диалоговых случаев использования и превосходит многие доступные модели на общих отраслевых контрольных точках. Модель была обучена на более чем 15 триллионах tokens общедоступных данных, используя такие техники, как контролируемое Fine-tuning и обучение с подкреплением с обратной связью от человека для повышения полезности и безопасности. Llama 3.1 поддерживает Text и кодогенерацию, с отсечкой знаний на декабрь 2023 года....

Total Context:

33K

Max output:

Input:

0.06

/ M Tokens

Output:

0.06

/ M Tokens

Black Forest Labs

Text-to-Image

FLUX.1-dev

Выпуск: 1 авг. 2024 г.

0.014

/ Image

Black Forest Labs

Text-to-Image

FLUX.1-schnell

Выпуск: 1 авг. 2024 г.

0.0014

/ Image

Fish Audio

Text-to-Speech

Fish-Speech-1.5

Выпуск: 29 нояб. 2024 г.

Fish Speech V1.5 — ведущая модель преобразования текста в речь (TTS) с открытым исходным кодом. Model использует инновационную архитектуру DualAR, включающую двухслойный авторегрессивный дизайн трансформера. Она поддерживает несколько языков, с более чем 300,000 часами тренировочных данных для английского и китайского языков, и более 100,000 часов для японского. В независимых оценках TTS Arena Model показала себя исключительно хорошо, с рейтингом ELO 1339. Model достигла уровня ошибки слов (WER) в 3.5% и уровня ошибки символов (CER) в 1.2% для английского языка, и уровня ошибки символов (CER) в 1.3% для китайских символов....

15.0

/ M UTF-8 bytes

FunAudioLLM

Text-to-Speech

FunAudioLLM/CosyVoice2-0.5B

Выпуск: 16 дек. 2024 г.

CosyVoice 2 — это потоковая модель синтеза речи, основанная на крупной языковой модели, использующая унифицированный потоковый/непотоковый дизайн. Модель улучшает использование кодовой книги речевых token через конечное скалярное квантование (FSQ), упрощает архитектуру модели Text-to-speech и разрабатывает потоковую модель с учётом фрагментов, поддерживающую различные сценарии синтеза. В потоковом режиме модель достигает ультра-низкой задержки в 150 мс, при этом качество синтеза практически идентично качеству в непотоковом режиме. По сравнению с версией 1.0, уровень ошибок произношения был снижен на 30%-50%, показатель MOS улучшен с 5.4 до 5.53, и поддерживается тонкое управление эмоциями и диалектами. Модель поддерживает китайский (включая диалекты: кантонский, сычуаньский, шанхайский, тяньцзиньский и др.), английский, японский, корейский и поддерживает межъязыковые и многозыковые сценарии....

7.15

/ M UTF-8 bytes

Готовы ускорить ваше развитие ИИ?