
Moonshot AI
Text Generation
Kimi-K2.5
Выпуск: 30 янв. 2026 г.
Kimi K2.5 — это open-source, нативная Multimodal агентская Model, созданная через постоянное предобучение на приблизительно 15 триллионах смешанных визуальных и Text token поверх Kimi-K2-Base. С архитектурой MoE на 1 триллион параметров (32 миллиарда активно) и длиной контекста 256 тысяч, она безупречно интегрирует Vision и понимание языка с расширенными агентскими возможностями, поддерживая как мгновенный, так и обдуманный режимы, а также разговорные и агентские парадигмы....
Total Context:
262K
Max output:
262K
Input:
$
0.55
/ M Tokens
Output:
$
3.0
/ M Tokens

MiniMaxAI
Text Generation
MiniMax-M2.1
Выпуск: 23 дек. 2025 г.
MiniMax-M2.1 - это открытая большая языковая Model, оптимизированная для агентных возможностей, превосходящая в кодировании, использовании инструментов, следовании инструкциям и долгосрочном планировании. Она поддерживает многоязычную разработку программного обеспечения и сложные многошаговые рабочие процессы, достигая 74.0 на SWE-bench Verified и превосходя Claude Sonnet 4.5 в многоязычных сценариях....
Total Context:
197K
Max output:
131K
Input:
$
0.29
/ M Tokens
Output:
$
1.2
/ M Tokens

Z.ai
Text Generation
GLM-4.7
Выпуск: 23 дек. 2025 г.
GLM-4.7 — это новая флагманская модель компании Zhipu, с общим количеством параметров 355 миллиардов и 32 миллиарда активированных параметров, обеспечивающая комплексные обновления в области общих разговоров, рассуждений и возможностей агентов. Ответы стали более лаконичными и естественными; писательство ощущается более захватывающим; инструкции по вызову инструментов выполняются более надежно; и передний конечный блеск артефактов и агентского кодирования, вместе с эффективностью выполнения задач на большие расстояния, был дополнительно улучшен....
Total Context:
205K
Max output:
205K
Input:
$
0.42
/ M Tokens
Output:
$
2.2
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2
Выпуск: 4 дек. 2025 г.
DeepSeek-V3.2 — это модель, которая сочетает в себе высокую вычислительную эффективность с превосходной способностью к рассуждению и агентской производительности. Ее подход основывается на трех ключевых технических прорывах: DeepSeek Sparse Attention (DSA), эффективном механизме внимания, который существенно снижает вычислительную сложность при сохранении производительности модели, специально оптимизированной для сценариев с длинным контекстом; масштабируемой структуры обучения с подкреплением, которая позволяет достичь производительности, сопоставимой с GPT-5, и уровня рассуждений на уровне Gemini-3.0-Pro в его варианте с высокими вычислительными ресурсами; и крупномасштабного конвейера синтеза агентских задач, чтобы интегрировать рассуждения в сценарии использования инструментов, улучшая соответствие и обобщение в сложных интерактивных средах. Модель достигла золотого уровня производительности на Международной математической олимпиаде (IMO) и Международной олимпиаде по информатике (IOI) в 2025 году....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.42
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2-Exp
Выпуск: 10 окт. 2025 г.
DeepSeek-V3.2-Exp — это экспериментальная версия модели DeepSeek, созданная на основе V3.1-Terminus. В ней дебютирует разреженное внимание DeepSeek (DSA) для более быстрого и эффективного обучения и Inference на длинном контексте....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.41
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
Выпуск: 8 дек. 2025 г.
Модель GLM-4.6V достигает SOTA (State-of-the-Art) точности в визуальном понимании среди моделей с такими же параметрами. Впервые в мире она встраивает возможности функциональных вызовов непосредственно в архитектуру визуальной модели, что позволяет устранить разрыв между «Визуальным восприятием» и «Исполнимым действием». Это предоставляет единую техническую основу для Multimodal агентов в реальных бизнес-сценариях. Кроме того, визуальное контекстное окно было расширено до 128k, поддерживая обработку длинных видеопотоков и анализ многократных изображений высокого разрешения....
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1-Terminus
Выпуск: 29 сент. 2025 г.
DeepSeek-V3.1-Терминус — это обновленная версия, построенная на сильных сторонах V3.1 с учетом ключевых отзывов пользователей. Она улучшает языковую согласованность, уменьшая количество случаев смешанного китайско-английского текста и периодически встречающихся аномальных символов. Также она обновляет более сильные агенты кода и агенты поиска....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1
Выпуск: 25 авг. 2025 г.
DeepSeek-V3.1 — это гибридная Model, поддерживающая как режим мышления, так и режим без мышления. Благодаря оптимизации после обучения, производительность Model в использовании инструментов и выполнении задач агентами значительно улучшилась. DeepSeek-V3.1-Think достигает качества ответов, сопоставимого с DeepSeek-R1-0528, при этом отвечая быстрее....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3
Выпуск: 26 дек. 2024 г.
DeepSeek-V3-0324 демонстрирует заметные улучшения по сравнению со своим предшественником, DeepSeek-V3, в нескольких ключевых аспектах, включая значительное повышение производительности рассуждений, более сильные навыки фронтенд-разработки и более умелые возможности использования инструментов....
Total Context:
164K
Max output:
164K
Input:
$
0.25
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1
Выпуск: 28 мая 2025 г.
DeepSeek-R1-0528 — это обновленная Model, показывающая значительные улучшения в решении сложных задач рассуждения, а также предлагающая сниженную частоту галлюцинаций, улучшенную поддержку вызова функций и лучшее качество работы с кодированием атмосферы. Она достигает производительности, сопоставимой с O3 и Gemini 2.5 Pro....
Total Context:
164K
Max output:
164K
Input:
$
0.5
/ M Tokens
Output:
$
2.18
/ M Tokens

Nex AGI
DeepSeek-V3.1-Nex-N1
Выпуск: 19 нояб. 2025 г.
DeepSeek-V3.1-Nex-N1 — это большая языковая модель, разработанная на основе передовых моделей с открытым исходным кодом и оптимизированная посредством обучающей доработки. Эта оптимизация значительно улучшает её возможности, что приводит к выдающимся результатам в задачах Aгента и генерации и понимании кода, использовании инструментов и ролевых игр. Модель превосходит в декомпозиции сложных задач на многошаговые планы и в проактивном разъяснении неясностей, чтобы обеспечить надёжное и точное выполнение....
Total Context:
131K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens

MiniMaxAI
Text Generation
MiniMax-M2
Выпуск: 28 окт. 2025 г.
MiniMax-M2 переопределяет эффективность для агентов. Это компактная, быстрая и экономически эффективная модель MoE (230 миллиардов общих параметров с 10 миллиардами активных параметров), созданная для элитной производительности в кодировании и агентских задачах, при этом сохраняя мощный общий интеллект. Используя всего 10 миллиардов активированных параметров, MiniMax-M2 обеспечивает сложную, сквозную производительность инструментов, которую ожидают от ведущих моделей сегодня, но в упрощенной форме, что делает развертывание и масштабирование проще, чем когда-либо....
Total Context:
197K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
1.2
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Thinking
Выпуск: 7 нояб. 2025 г.
Kimi K2 Thinking — это последняя и самая мощная версия открытой модели мышления. Начиная с Kimi K2, мы создали его как агента мышления, который рассуждает шаг за шагом, динамически используя инструменты. Он устанавливает новый стандарт в "Последнем Экзамене Человечества" (HLE), BrowseComp и других бенчмарках, значительно увеличивая глубину многократных рассуждений и поддерживая стабильное использование инструментов на протяжении 200–300 последовательных вызовов. В то же время, K2 Thinking — это нативная модель квантования INT4 с контекстным окном в 262k, достигающая без потерь сокращения задержек в inference и использования памяти GPU....
Total Context:
262K
Max output:
262K
Input:
$
0.55
/ M Tokens
Output:
$
2.5
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct-0905
Выпуск: 8 сент. 2025 г.
Kimi K2-Instruct-0905, новейшая модель смешивания экспертов (MoE), является последней, самой мощной версией Kimi K2. Ключевые особенности включают улучшенные возможности кодирования, особенно для фронтенда и вызова инструментов, длину контекста, увеличенную до 256k tokens, а также улучшенную интеграцию с различными каркасами агентов....
Total Context:
262K
Max output:
262K
Input:
$
0.4
/ M Tokens
Output:
$
2.0
/ M Tokens
OpenAI
Text Generation
gpt-oss-120b
Выпуск: 13 авг. 2025 г.
Серия gpt-oss — это модели OpenAI с открытыми весами, предназначенные для мощного рассуждения, агентных задач и универсальных сценариев использования разработчиками. gpt-oss-120b предназначен для производственных, универсальных задач с высоким уровнем рассуждения, которые помещаются в одно 80 ГБ GPU (например, NVIDIA H100 или AMD MI300X)....
Total Context:
131K
Max output:
8K
Input:
$
0.05
/ M Tokens
Output:
$
0.45
/ M Tokens
OpenAI
Text Generation
gpt-oss-20b
Выпуск: 13 авг. 2025 г.
Серия gpt-oss — это открытые модели OpenAI, предназначенные для мощных вычислений, агентных задач и универсальных случаев использования разработчиков. gpt-oss-20b предназначен для меньшей задержки и локальных или специализированных случаев использования....
Total Context:
131K
Max output:
8K
Input:
$
0.04
/ M Tokens
Output:
$
0.18
/ M Tokens

Z.ai
Text Generation
GLM-4.6
Выпуск: 4 окт. 2025 г.
По сравнению с GLM-4.5, GLM-4.6 вносит несколько ключевых улучшений, включая более длинное контекстное окно, расширенное до 200K tokens, улучшенную производительность кодирования, продвинутое умозаключение, более способных агентов и усовершенствованное написание....
Total Context:
205K
Max output:
205K
Input:
$
0.39
/ M Tokens
Output:
$
1.9
/ M Tokens

Z.ai
Text Generation
GLM-4.5-Air
Выпуск: 28 июл. 2025 г.
Серия моделей GLM-4.5 являются основными моделями, разработанными для интеллектуальных агентов. GLM-4.5-Air использует более компактный дизайн с 106 миллиардами общих параметров и 12 миллиардами активных параметров. Это также гибридная модель, обеспечивающая как режим мышления, так и режим без мышления....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

inclusionAI
Text Generation
Ling-flash-2.0
Выпуск: 18 сент. 2025 г.
Ling-flash-2.0 — это языковая Model от inclusionAI с общим числом параметров 100 миллиардов, из которых 6,1 миллиарда активируются на каждый token (4,8 миллиарда без учета Embedding). Как часть архитектурной серии Ling 2.0, она разработана как легкая, но мощная Model Mixture-of-Experts (MoE). Она стремится обеспечить производительность, сравнимую или даже превосходящую модели плотности уровня 40B и другие более крупные модели MoE, но с значительно меньшим числом активных параметров. Model представляет собой стратегию, нацеленную на достижение высокой производительности и эффективности через экстремальный архитектурный дизайн и методы обучения....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

inclusionAI
Text Generation
Ling-mini-2.0
Выпуск: 10 сент. 2025 г.
Ling-mini-2.0 — это маленькая, но высокопроизводительная большая языковая Model, построенная на архитектуре MoE. Она имеет 16 миллиардов общих параметров, но только 1,4 миллиарда активируются на каждый token (не-Embedding 789 миллионов), что обеспечивает чрезвычайно быструю генерацию. Благодаря эффективному дизайну MoE и крупномасштабным высококачественным обучающим данным, несмотря на наличие всего 1,4 миллиарда активированных параметров, Ling-mini-2.0 все равно демонстрирует высочайшую производительность в downstream задачах, сопоставимую с плотными LLM до 10 миллиардов и даже более крупными моделями MoE....
Total Context:
131K
Max output:
131K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

inclusionAI
Text Generation
Ring-flash-2.0
Выпуск: 29 сент. 2025 г.
Ring-flash-2.0 — это высокопроизводительный размышляющий Model, глубоко оптимизированный на базе Ling-flash-2.0-base. Это Model с Поцелуем-Экспертов (MoE) и общим количеством параметров 100B, но только 6.1B активируются при Inference. Этот Model использует независимо разработанный алгоритм 'icepop' для решения проблем нестабильности обучения в обучении с подкреплением (RL) для моделей MoE LLM, обеспечивая непрерывное улучшение своих сложных способностей к рассуждению в течение длительных циклов обучения RL. Ring-flash-2.0 демонстрирует значительные прорывы в сложных эталонных тестах, включая математические соревнования, генерацию кода и логическое рассуждение. Его производительность превосходит SOTA плотные модели под 40B параметров и соперничает с более крупными открытыми MoE-моделями и закрытыми высокопроизводительными размышляющими модельными API. Еще более удивительно, что хотя Ring-flash-2.0 в первую очередь разработан для сложных рассуждений, он также демонстрирует сильные способности в творческом письме. Благодаря своей эффективной архитектуре, он достигает высокой скорости Inference, значительно снижая затраты на Inference для размышляющих моделей в условиях высокой одновременности....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Tencent
Text Generation
Hunyuan-MT-7B
Выпуск: 18 сент. 2025 г.
Модель перевода Hunyuan состоит из модели перевода, Hunyuan-MT-7B, и ансамблевой модели, Hunyuan-MT-Chimera. Hunyuan-MT-7B — это легкая модель перевода с 7 миллиардами параметров, используемая для перевода исходного текста на целевой язык. Модель поддерживает взаимный перевод между 33 языками, включая пять языков национальных меньшинств Китая. В конкурсе по машинному переводу WMT25 Hunyuan-MT-7B заняла первое место в 30 из 31 языковой категории, в которых она участвовала, демонстрируя свои выдающиеся возможности перевода. Для задач перевода Tencent Hunyuan предложила всеобъемлющую структуру обучения, охватывающую предобучение, контролируемое Fine-tuning, улучшение перевода и усовершенствование ансамбля, достигая передовых результатов среди моделей подобного масштаба. Модель вычислительно эффективна и проста в развертывании, что делает её подходящей для различных сценариев применения....
Total Context:
33K
Max output:
33K
Input:
$
0.0
/ M Tokens
Output:
$
0.0
/ M Tokens

Qwen
Text Generation
Qwen3-Next-80B-A3B-Instruct
Выпуск: 18 сент. 2025 г.
Qwen3-Next-80B-A3B-Instruct — это модель следующего поколения, выпущенная командой Qwen компании Alibaba. Она построена на новой архитектуре Qwen3-Next, предназначенной для максимальной эффективности обучения и Inference. Модель включает инновационные функции, такие как механизм гибридного внимания (Gated DeltaNet и Gated Attention), высокоразреженная структура с механизмом смеси экспертов (MoE) и различные оптимизации стабильности. Как разреженная модель с 80 миллиардами параметров, она активирует только около 3 миллиардов параметров на token во время Inference, что значительно снижает вычислительные затраты и обеспечивает более чем в 10 раз большую производительность по сравнению с моделью Qwen3-32B для задач с длинным контекстом, превышающих 32K tokens. Это версия с настройкой инструкций, оптимизированная для задач общего назначения, и не поддерживает режим 'мышления'. Что касается производительности, она сопоставима с флагманской моделью Qwen, Qwen3-235B, по некоторым критериям, демонстрируя значительные преимущества в сценах с ультрадлинным контекстом....
Total Context:
262K
Max output:
262K
Input:
$
0.14
/ M Tokens
Output:
$
1.4
/ M Tokens

Qwen
Text Generation
Qwen3-Next-80B-A3B-Thinking
Выпуск: 25 сент. 2025 г.
Qwen3-Next-80B-A3B-Thinking — это модель следующего поколения от команды Qwen компании Alibaba, специально разработанная для сложных задач рассуждения. Она построена на инновационной архитектуре Qwen3-Next, которая сочетает в себе механизм гибридного внимания (Gated DeltaNet и Gated Attention) с высокоразряженной структурой смеси экспертов (MoE) для достижения максимальной эффективности обучения и inference. Как разреженная модель с 80 миллиардами параметров, она активирует только около 3 миллиардов параметров в ходе inference, что значительно снижает вычислительные затраты и обеспечивает более чем в 10 раз более высокую пропускную способность по сравнению с моделью Qwen3-32B на задачах с длинным контекстом, превышающим 32K tokenов. Эта версия 'Thinking' оптимизирована для сложных многоэтапных задач, таких как математические доказательства, синтез кода, логический анализ и планирование агентов, и по умолчанию она outputирует структурированные следы 'мышления'. По производительности она превосходит более дорогие модели, такие как Qwen3-32B-Thinking, и превзошла Gemini-2.5-Flash-Thinking на нескольких бенчмарках....
Total Context:
262K
Max output:
262K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-480B-A35B-Instruct
Выпуск: 31 июл. 2025 г.
Qwen3-Coder-480B-A35B-Instruct является самым агентным кодовым Model'ом, выпущенным Alibaba на сегодняшний день. Это модель Mixture-of-Experts (MoE) с общим количеством параметров в 480 миллиардов и 35 миллиардов активированных параметров, достигая баланса между эффективностью и производительностью. Model поддерживает длину контекста в 256K (примерно 262,144) token'ов, которую можно продлить до 1 миллиона token'ов с использованием экстраполяционных методов, таких как YaRN, что позволяет обрабатывать коды репозитарного масштаба и сложные программные задачи. Qwen3-Coder специально разработан для агентных рабочих процессов кодирования, где он не только генерирует код, но и автономно взаимодействует с инструментами разработчика и средами для решения сложных задач. Он достиг передовых результатов среди открытых моделей на различных агентных бенчмарках кодирования, с производительностью, сопоставимой с ведущими Model'ами, такими как Claude Sonnet 4. Наряду с Model'ом, Alibaba также открыла исходный код Qwen Code, инструмент командной строки, разработанный для полного раскрытия мощных агентных возможностей кодирования....
Total Context:
262K
Max output:
262K
Input:
$
0.25
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-30B-A3B-Instruct
Выпуск: 1 авг. 2025 г.
Qwen3-Coder-30B-A3B-Instruct — это кодовый Model из серии Qwen3, разработанный командой Qwen компании Alibaba. Как упрощенный и оптимизированный Model, он поддерживает впечатляющую производительность и эффективность, сосредотачиваясь на усовершенствованных возможностях кодирования. Он демонстрирует значительное преимущество в производительности среди open-source Models на сложных задачах, таких как агентское кодирование, использование агентского браузера и другие основные задачи кодирования. Model изначально поддерживает долгий контекст из 256K Tokens, который может быть расширен до 1M Tokens, что позволяет лучше понимать и обрабатывать репозитории. Более того, он обеспечивает надежную поддержку агентского кодирования для платформ, таких как Qwen Code и CLINE, с специально разработанным форматом вызова функций....
Total Context:
262K
Max output:
262K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Instruct-2507
Выпуск: 30 июл. 2025 г.
Qwen3-30B-A3B-Instruct-2507 — это обновленная версия Qwen3-30B-A3B в режиме без мышления. Это модель (Model) Соединения Экспертов (MoE) с общим количеством параметров 30,5 миллиардов и 3,3 миллиардами активированных параметров. Эта версия обладает ключевыми улучшениями, включая значительные улучшения в общих способностях, таких как следование инструкциям, логическое рассуждение, понимание текста, математика, наука, программирование и использование инструментов. Она также демонстрирует существенные достижения в покрытии долгосрочных знаний на разных языках и предлагает заметно лучшее соответствие с пользовательскими предпочтениями в субъективных и открытых заданиях, что позволяет предоставлять более полезные ответы и создавать высококачественный текст. Более того, её возможности в понимании контекста на дальние расстояния были улучшены до 256K. Эта модель поддерживает только режим без мышления и не генерирует блоки `<think></think>` в своем Output....
Total Context:
262K
Max output:
262K
Input:
$
0.09
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Thinking-2507
Выпуск: 31 июл. 2025 г.
Qwen3-30B-A3B-Thinking-2507 — это последняя мыслительная Model в серии Qwen3, выпущенная командой Qwen компании Alibaba. Как модель Смешения экспертов (MoE) с общим числом параметров 30,5 миллиардов и активными параметрами 3,3 миллиарда, она сосредоточена на улучшении возможностей для выполнения сложных задач. Model демонстрирует значительно улучшенную производительность в решении задач, требующих рассуждений, включая логические рассуждения, математику, науку, программирование и академические эталоны, которые обычно требуют человеческой экспертизы. Она также показывает заметно более хорошие общие способности, такие как следование инструкциям, использование инструментов, генерация Text и выравнивание с человеческими предпочтениями. Model изначально поддерживает возможность понимания в длинном контексте длиной до 256 тысяч и может быть расширена до 1 миллиона tokens. Эта версия специально разработана для 'режима мышления' для решения очень сложных проблем через пошаговое рассуждение и также выделяется в агентных способностях....
Total Context:
262K
Max output:
131K
Input:
$
0.09
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Instruct-2507
Выпуск: 23 июл. 2025 г.
Qwen3-235B-A22B-Instruct-2507 — флагманская модель на основе смеси экспертов (Mixture-of-Experts, MoE) из серии Qwen3, разработанная командой Qwen от Alibaba Cloud. Эта Model обладает общим количеством 235 миллиардов параметров, из которых 22 миллиарда активируются при каждом проходе вперед. Она была выпущена как обновленная версия режима без мышления Qwen3-235B-A22B, с значительными улучшениями в общих возможностях, таких как следование инструкциям, логическое рассуждение, понимание Text, математика, наука, кодирование и использование инструментов. Кроме того, Model обеспечивает значительное улучшение в покрытии знания длинного хвоста на нескольких языках и демонстрирует заметно лучшее согласование с предпочтениями пользователей в субъективных и открытых задачах, что позволяет генерировать более полезные ответы и Text более высокого качества. В частности, она нативно поддерживает обширное окно контекста размером 256K (262 144 tokens), что повышает её возможности для понимания длинных контекстов. Эта версия исключительно поддерживает режим без мышления и не генерирует блоки <think>, стремясь предоставить более эффективные и точные ответы для задач, таких как прямые вопросы и ответы, и извлечение знаний....
Total Context:
262K
Max output:
262K
Input:
$
0.09
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Thinking-2507
Выпуск: 28 июл. 2025 г.
Qwen3-235B-A22B-Thinking-2507 является членом серии больших языковых Model Qwen3, разработанной командой Qwen компании Alibaba, специализирующейся на задачах сложного рассуждения. Model построена на архитектуре Mixture-of-Experts (MoE), с общим количеством параметров в 235 миллиардов и примерно 22 миллиардов активированных параметров на token, что повышает вычислительную эффективность при сохранении мощной производительности. Как специализированная 'мыслящая' Model, она демонстрирует значительно улучшенные результаты в выполнении задач, требующих человеческой экспертности, таких как логическое рассуждение, математика, наука, кодирование и академические контрольные показатели, достигая наивысших результатов среди моделей с открытым исходным кодом для мышления. Кроме того, Model имеет расширенные общие возможности, такие как следование инструкциям, использование инструментов и генерация Text, и нативно поддерживает способность восприятия в длинном контексте 256K, что делает её идеальной для сценариев, требующих глубоких размышлений и обработки длинных документов....
Total Context:
262K
Max output:
262K
Input:
$
0.13
/ M Tokens
Output:
$
0.6
/ M Tokens
ByteDance
Text Generation
Seed-OSS-36B-Instruct
Выпуск: 4 сент. 2025 г.
Seed-OSS — это серия крупных языковых моделей с открытым исходным кодом, разработанных командой ByteDance Seed, предназначенная для мощной обработки длинных контекстов, рассуждений, агентных возможностей и универсальных способностей. В этой серии Seed-OSS-36B-Instruct представляет собой настроенную на инструкции модель с 36 миллиардами параметров, которая изначально поддерживает ультрадлинную длину контекста, что позволяет ей обрабатывать массивные документы или сложные кодовые базы в один проход. Модель специально оптимизирована для рассуждений, генерации кода и агентных задач (таких как использование инструментов), сохраняя при этом сбалансированные и отличные универсальные возможности. Ключевой особенностью этой модели является функция «Бюджет мышления», которая позволяет пользователям гибко регулировать длину рассуждений по мере необходимости, тем самым эффективно повышая эффективность Inference в практических приложениях....
Total Context:
262K
Max output:
262K
Input:
$
0.21
/ M Tokens
Output:
$
0.57
/ M Tokens

BAIDU
Text Generation
ERNIE-4.5-300B-A47B
Выпуск: 2 июл. 2025 г.
ERNIE-4.5-300B-A47B — это крупная языковая Model, разработанная Baidu на основе архитектуры Mixture-of-Experts (MoE). У этой Model в общей сложности 300 миллиардов параметров, но во время Inference активируется только 47 миллиардов параметров на один token, что позволяет сбалансировать мощную производительность с вычислительной эффективностью. Будучи одной из основных Models в серии ERNIE 4.5, она обучена на платформе глубокого обучения PaddlePaddle и демонстрирует выдающиеся возможности в таких задачах, как Text понимание, генерация, логическое мышление и кодирование. Model использует инновационный Multimodal гетерогенный метод предварительного обучения MoE, который эффективно улучшает ее общие способности через совместное обучение на тексте и визуальных модальностях, показывая выдающиеся результаты в следовании инструкциям и запоминании мировых знаний. Baidu открыла исходный код этой Model, а также других в серии, чтобы способствовать исследованию и применению AI технологии....
Total Context:
131K
Max output:
131K
Input:
$
0.28
/ M Tokens
Output:
$
1.1
/ M Tokens

Tencent
Text Generation
Hunyuan-A13B-Instruct
Выпуск: 30 июн. 2025 г.
Hunyuan-A13B-Instruct активирует только 13 B из своих 80 B параметров, но при этом соответствует более крупным LLM на основных бенчмарках. Он предлагает гибридное рассуждение: режим с низкой задержкой "быстрый" или режим с высокой Precision "медленный", переключаемый при каждом вызове. Родной контекст 256 K-token позволяет обрабатывать документы книжной длины без деградации. Навыки агента настроены для лидерства в BFCL-v3, τ-Bench и C3-Bench, что делает его отличной автономной основой для помощника. Группированное внимание к запросам плюс многоформатная квантизация обеспечивают легкое по памяти и эффективное использование GPU Inference для реального внедрения, с встроенной мультиязычной поддержкой и надежным согласованием безопасности для приложений корпоративного уровня....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct
Выпуск: 13 июл. 2025 г.
Kimi K2 — это базовая модель со смесью экспертов (Mixture-of-Experts, MoE) с исключительными возможностями кодирования и агентирования, содержащая 1 триллион общих параметров и 32 миллиарда активированных параметров. В оценках по эталонным тестам, охватывающим общие знания, программирование, математику и задачи, связанные с агентами, модель K2 превосходит другие ведущие модели с открытым исходным кодом....
Total Context:
131K
Max output:
131K
Input:
$
0.58
/ M Tokens
Output:
$
2.29
/ M Tokens

Moonshot AI
Text Generation
Kimi-Dev-72B
Выпуск: 19 июн. 2025 г.
Kimi-Dev-72B — это новая модель крупного открытого исходного кода для кодирования, достигшая 60,4% на SWE-bench Verified, устанавливая передовой результат среди открытых моделей. Оптимизирована через масштабное обучение с подкреплением, она автономно исправляет реальные кодовые базы в Docker и получает вознаграждение только при успешном прохождении полного тестового набора. Это гарантирует, что модель предоставляет правильные, надежные и практичные решения, соответствующие стандартам реального мира программной инженерии....
Total Context:
131K
Max output:
131K
Input:
$
0.29
/ M Tokens
Output:
$
1.15
/ M Tokens

MiniMaxAI
Text Generation
MiniMax-M1-80k
Выпуск: 17 июн. 2025 г.
МиниМакс-М1 — это модель гибридного внимания с открытым весом и крупномасштабным моделированием с 456 млрд параметрами и 45,9 млрд активированными на каждый token. Она изначально поддерживает контекст с 1 млн token, молниеносное внимание, обеспечивающее экономию 75% FLOPs по сравнению с DeepSeek R1 на 100 тыс. tokens, и использует архитектуру MoE. Эффективное обучение с подкреплением с CISPO и гибридный дизайн обеспечивают передовую производительность на задачах долгосрочного reasoning и задачах реального инжиниринга программного обеспечения....
Total Context:
131K
Max output:
131K
Input:
$
0.55
/ M Tokens
Output:
$
2.2
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B
Выпуск: 30 апр. 2025 г.
Qwen3-30B-A3B — это последняя крупная языковая Model в серии Qwen, имеющая архитектуру с комбинацией экспертов (MoE) с общим числом параметров 30,5B и активированными параметрами 3,3B. Этот Model уникально поддерживает плавное переключение между режимом мышления (для сложных логических рассуждений, математики и кодирования) и режимом не-мышления (для эффективного, универсального диалога). Он демонстрирует значительно улучшенные способности в рассуждении, превосходное выравнивание предпочтений человека в создании креативных текстов, ролевых игр и многоходовых диалогах. Model отличается отличными агентными способностями для точной интеграции с внешними инструментами и поддерживает более 100 языков и диалектов с сильными возможностями многоязычного инструкционного следования и перевода....
Total Context:
131K
Max output:
131K
Input:
$
0.09
/ M Tokens
Output:
$
0.45
/ M Tokens

Qwen
Text Generation
Qwen3-32B
Выпуск: 30 апр. 2025 г.
Qwen3-32B — это последняя большая языковая модель в серии Qwen с 32.8 миллиардами параметров. Эта модель уникально поддерживает плавное переключение между режимом мышления (для сложного логического рассуждения, математики и программирования) и режимом немышления (для эффективного, универсального диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие instruct модели QwQ и Qwen2.5 в математике, генерации кода и логическом рассуждении на уровне здравого смысла. Модель превосходит в выравнивании человеческих предпочтений для творческого письма, ролевых игр и диалогов с множественными ходами. Кроме того, она поддерживает более 100 языков и диалектов с сильными возможностями следования многоязычным инструкциям и перевода....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-14B
Выпуск: 30 апр. 2025 г.
Qwen3-14B — это последняя большая языковая Model в серии Qwen с 14.8 миллиардами параметров. Эта Model уникально поддерживает бесшовное переключение между режимом мышления (для сложного логического мышления, математики и программирования) и режимом немышления (для эффективного, универсального диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие instruct-модели QwQ и Qwen2.5 в математике, генерации кода и логическом рассуждении на уровне здравого смысла. Model превосходит в согласовании предпочтений человека для креативного письма, ролевых игр и многоходовых диалогов. Кроме того, она поддерживает более 100 языков и диалектов с сильными возможностями мульти-языковых инструкций и переводов....
Total Context:
131K
Max output:
131K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-8B
Выпуск: 30 апр. 2025 г.
Qwen3-8B — это последняя крупная языковая модель в серии Qwen с параметрами 8.2B. Эта модель уникально поддерживает бесперебойное переключение между режимом мышления (для сложного логического рассуждения, математики и программирования) и режимом немысли (для эффективного, общего диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие модели QwQ и Qwen2.5 в обучении математике, генерации кода и логическом рассуждении здравого смысла. Модель преуспевает в соотношении человеческих предпочтений для креативного письма, ролевых игр и многошаговых диалогов. Кроме того, она поддерживает более 100 языков и диалектов с сильными мультиязычными инструкциями и возможностями перевода....
Total Context:
131K
Max output:
131K
Input:
$
0.06
/ M Tokens
Output:
$
0.06
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-8B
Выпуск: 6 июн. 2025 г.
Qwen3-Reranker-8B — это модель повторного ранжирования текста с 8 миллиардами параметров из серии Qwen3. Она разработана для улучшения и повышения качества результатов поиска путем точного переупорядочивания документов на основе их релевантности запросу. Построенная на мощных фундаментальных моделях Qwen3, она отлично понимает длинный текст с контекстной длиной в 32k и поддерживает более 100 языков. Модель Qwen3-Reranker-8B является частью гибкой серии, которая предлагает передовые возможности в различных сценариях поиска текста и кода....
$
0.04
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-8B
Выпуск: 6 июн. 2025 г.
Qwen3-Embedding-8B — это последняя проприетарная Model в серии Qwen3 Embedding, специально разработанная для задач встраивания и ранжирования Text. Построенная на основе плотных фундаментальных моделей серии Qwen3, эта модель с 8 миллиардами параметров поддерживает длину контекста до 32K и может генерировать встраивания с размерами до 4096. Model наследует исключительные мультиязыковые возможности, поддерживающие более 100 языков, а также навыки понимания и рассуждения с длинными Text. Она занимает первое место в многоязычном рейтинге MTEB (по состоянию на 5 июня 2025 года, оценка 70.58) и демонстрирует передовые показатели в различных задачах, включая извлечение Text, извлечение кода, классификацию Text, кластеризацию и битекстовый майнинг. Model предлагает гибкие размеры векторов (от 32 до 4096) и возможности, учитывающие инструкции, для улучшения производительности в определённых задачах и сценариях....
Input:
$
0.04
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-4B
Выпуск: 6 июн. 2025 г.
Qwen3-Reranker-4B — это мощная модель повторной оценки Text из серии Qwen3, содержащая 4 миллиарда параметров. Она разработана для значительного повышения релевантности результатов поиска путем переупорядочивания начального списка документов на основе запроса. Эта Model наследует основные преимущества своей основы Qwen3, включая исключительное понимание длинного Text (до 32k контекста) и надежные возможности в более чем 100 языках. Согласно бенчмаркам, Model Qwen3-Reranker-4B демонстрирует превосходную производительность в различных оценках извлечения Text и кода....
$
0.02
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-4B
Выпуск: 6 июн. 2025 г.
Qwen3-Embedding-4B является последней проприетарной моделью в серии Qwen3 Embedding, специально разработанной для задач эмбеддинга текстов и ранжирования. Построенная на основе плотных основополагающих моделей серии Qwen3, эта модель с 4 миллиардами параметров поддерживает длины контекста до 32 тысяч и может генерировать эмбединги с размерностями до 2560. Модель наследует исключительные возможности мультиязычной поддержки, охватывающие более 100 языков, а также навыки понимания и анализа длинных текстов. Она достигает отличных результатов на многоязычном рейтинге MTEB (оценка 69.45) и демонстрирует выдающиеся результаты в различных задачах, включая поиск текста, поиск кода, классификацию текстов, кластеризацию и добычу двуязычных текстов. Модель предлагает гибкие размерности векторов (от 32 до 2560) и возможности с учетом инструкций для улучшенной производительности в конкретных задачах и сценариях, обеспечивая оптимальный баланс между эффективностью и эффективностью....
Input:
$
0.02
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-0.6B
Выпуск: 6 июн. 2025 г.
Qwen3-Reranker-0.6B — это Text модель упорядочивания из серии Qwen3. Она специально предназначена для уточнения результатов начальных систем поиска, переставляя документы на основе их релевантности данному запросу. Имея 0.6 миллиардов параметров и длину контекста 32k, эта Model использует сильные многолингвальные (поддерживающие более 100 языков), способности к пониманию длинных текстов и умозаключение своей Qwen3 платформы. Результаты оценки показывают, что Qwen3-Reranker-0.6B достигает высокого уровня производительности по различным критериям поиска текстов, включая MTEB-R, CMTEB-R и MLDR....
$
0.01
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-0.6B
Выпуск: 6 июн. 2025 г.
Qwen3-Embedding-0.6B является последней проприетарной моделью в серии Qwen3 Embedding, специально разработанной для задач текстового встраивания и ранжирования. Построенная на основе плотных фундаментальных моделей серии Qwen3, эта модель с 0.6B параметрами поддерживает длины контекста до 32K и может генерировать встраивания с размерами до 1024. Модель наследует исключительные мультиязычные возможности, поддерживающие более 100 языков, а также навыки понимания длинного текста и рассуждения. Она достигает высокой производительности на многоязычной лидерборде MTEB (оценка 64.33) и демонстрирует отличные результаты в различных задачах, включая извлечение текста, извлечение кода, классификацию текста, кластеризацию и майнинг двуязычных текстов. Модель предлагает гибкие размеры векторов (от 32 до 1024) и возможности, осведомленные об инструкциях, для улучшенной производительности в конкретных задачах и сценариях, делая её идеальным выбором для приложений, приоритетизирующих как эффективность, так и результативность....
Input:
$
0.01
/ M Tokens

Z.ai
Text Generation
GLM-Z1-32B-0414
Выпуск: 18 апр. 2025 г.
GLM-Z1-32B-0414 — это модель рассуждения с глубокими возможностями мышления. Эта Model была разработана на основе GLM-4-32B-0414 через холодный старт и расширенное обучение с подкреплением, а также дальнейшее обучение на задачах, связанных с математикой, кодом и логикой. По сравнению с базовой Model, GLM-Z1-32B-0414 значительно улучшает математические способности и способность решать сложные задачи. В ходе тренировочного процесса команда также внедрила общее обучение с подкреплением на основе парных ранжированных отзывов, что еще больше улучшило общие возможности модели. Несмотря на то, что она имеет только 32B параметров, её производительность в некоторых задачах сопоставима с DeepSeek-R1 с 671B параметрами. В ходе оценок на таких тестах, как AIME 24/25, LiveCodeBench и GPQA, модель демонстрирует сильные математические способности к рассуждению и может поддерживать решения для более широкого спектра сложных задач....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Z.ai
Text Generation
GLM-4-32B-0414
Выпуск: 18 апр. 2025 г.
GLM-4-32B-0414 — это модель нового поколения в семействе GLM с 32 миллиардами параметров. Её производительность сопоставима с серией GPT от OpenAI и серией V3/R1 от DeepSeek, а также она поддерживает очень удобные функции локального развертывания. GLM-4-32B-Base-0414 была предварительно обучена на 15 триллионах качественных данных, включая большое количество синтетических данных для рассуждений, что становится основой для последующих расширений обучения с подкреплением. На этапе пост-тренировки, помимо выравнивания по человеческим предпочтениям для сценариев диалогов, команда улучшила производительность Model в следовании инструкциям, инженерному коду и вызову функций с использованием таких технологий, как выборка отклонений и обучение с подкреплением, усиливая атомарные возможности, необходимые для агентских задач. GLM-4-32B-0414 достигает хороших результатов в таких областях, как инженерный код, генерация артефактов, вызовы функций, поисковые вопросы и ответы, а также генерация отчетов. На нескольких тестах её производительность приближается или даже превышает производительность более крупных моделей, таких как GPT-4o и DeepSeek-V3-0324 (671B)...
Total Context:
33K
Max output:
33K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Z.ai
Text Generation
GLM-Z1-9B-0414
Выпуск: 18 апр. 2025 г.
GLM-Z1-9B-0414 является малогабаритным Model в серии GLM, с всего лишь 9 миллиардами параметров, которая сохраняет традиции открытого исходного кода и демонстрирует удивительные возможности. Несмотря на ее меньший масштаб, GLM-Z1-9B-0414 все же демонстрирует отличную производительность в математических рассуждениях и общих задачах. Ее общая производительность уже находится на ведущем уровне среди открытых Model того же размера. Исследовательская группа использовала те же методы, что и для более крупных Model, для обучения этой 9B Model. Особенно в условиях ограниченности ресурсов эта Model достигает отличного баланса между эффективностью и результативностью, предоставляя мощный вариант для пользователей, ищущих легковесное развертывание. Model обладает способностями глубокого мышления и может обрабатывать длительные контексты благодаря технологии YaRN, что делает ее особенно подходящей для приложений, требующих математических рассуждений с ограниченными вычислительными ресурсами....
Total Context:
131K
Max output:
131K
Input:
$
0.086
/ M Tokens
Output:
$
0.086
/ M Tokens

Z.ai
Text Generation
GLM-4-9B-0414
Выпуск: 18 апр. 2025 г.
GLM-4-9B-0414 — это модель небольшого размера в серии GLM с 9 миллиардами параметров. Эта модель наследует технические характеристики серии GLM-4-32B, но предлагает более легкий вариант развертывания. Несмотря на меньший масштаб, GLM-4-9B-0414 по-прежнему демонстрирует отличные возможности в генерации кода, веб-дизайне, генерации SVG графики и задачах написания на основе поиска. Модель также поддерживает функции вызова функций, что позволяет ей вызывать внешние инструменты для расширения своих возможностей. Модель демонстрирует хорошее соотношение между эффективностью и результативностью в условиях ограниченных ресурсов, предоставляя мощный вариант для пользователей, которым необходимо развертывать AI модели при ограниченных вычислительных ресурсах. Как и другие модели в той же серии, GLM-4-9B-0414 также демонстрирует конкурентоспособную производительность в различных тестах на сравнение....
Total Context:
33K
Max output:
33K
Input:
$
0.086
/ M Tokens
Output:
$
0.086
/ M Tokens

Qwen
Text Generation
QwQ-32B
Выпуск: 6 мар. 2025 г.
QwQ — это рассуждающая модель серии Qwen. По сравнению с обычными моделями с настройкой на инструкции, QwQ, способная думать и рассуждать, может добиться значительно улучшенной производительности в последующих задачах, особенно в сложных проблемах. QwQ-32B — это средняя по размеру рассуждающая модель, способная достигать конкурентных показателей в сравнении с передовыми рассуждающими моделями, например, DeepSeek-R1, o1-mini. Модель включает такие технологии, как RoPE, SwiGLU, RMSNorm и Attention QKV bias, с 64 слоями и 40 Q головы внимания (8 для KV в архитектуре GQA)...
Total Context:
131K
Max output:
131K
Input:
$
0.15
/ M Tokens
Output:
$
0.58
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-32B
Выпуск: 20 янв. 2025 г.
DeepSeek-R1-Distill-Qwen-32B является дистиллированной Model на основе Qwen2.5-32B. Модель была тонко настроена с использованием 800 тысяч отобранных образцов, сгенерированных DeepSeek-R1, и демонстрирует исключительную производительность в задачах по математике, программированию и рассуждениям. Она достигла впечатляющих результатов в различных тестах, включая AIME 2024, MATH-500 и GPQA Diamond, с заметной точностью 94,3% на MATH-500, демонстрируя её сильные математические способности....
Total Context:
131K
Max output:
131K
Input:
$
0.18
/ M Tokens
Output:
$
0.18
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-14B
Выпуск: 20 янв. 2025 г.
DeepSeek-R1-Distill-Qwen-14B — это дистиллированная модель, основанная на Qwen2.5-14B. Модель была доработана с использованием 800 тысяч отобранных образцов, созданных DeepSeek-R1, и демонстрирует сильные способности к аргументации. Она достигла впечатляющих результатов на различных тестах, включая 93,9% точности на MATH-500, 69,7% проходного балла на AIME 2024 и рейтинг 1481 на CodeForces, демонстрируя свои мощные способности в решении задач по математике и программированию....
Total Context:
131K
Max output:
131K
Input:
$
0.1
/ M Tokens
Output:
$
0.1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-7B
Выпуск: 20 янв. 2025 г.
DeepSeek-R1-Distill-Qwen-7B представляет собой дистиллированную модель, основанную на Qwen2.5-Math-7B. Модель была тонко настроена с использованием 800 тысяч курированных примеров, созданных DeepSeek-R1, и демонстрирует сильные способности к рассуждению. Она достигла впечатляющих результатов в различных бенчмарках, включая 92,8% точности на MATH-500, 55,5% проходного балла на AIME 2024 и рейтинг 1189 на CodeForces, показывая выдающиеся математические и программные способности для модели масштаба 7B....
Total Context:
33K
Max output:
16K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens

Qwen
Text Generation
Qwen2.5-Coder-32B-Instruct
Выпуск: 11 нояб. 2024 г.
Qwen2.5-Coder-32B-Instruct — это большая языковая модель, специфичная для кода, разработанная на основе Qwen2.5. Модель прошла обучение на 5.5 триллиона токенов, достигая значительных улучшений в генерации кода, логике кода и его исправлении. В настоящее время это самая продвинутая модель открытого исходного кода, с возможностями кодирования, сопоставимыми с GPT-4. Модель не только улучшила способности кодирования, но и сохраняет сильные стороны в математике и общих возможностях, а также поддерживает обработку длинных Text....
Total Context:
33K
Max output:
4K
Input:
$
0.18
/ M Tokens
Output:
$
0.18
/ M Tokens

Qwen
Text Generation
Qwen2.5-72B-Instruct-128K
Выпуск: 18 сент. 2024 г.
Qwen2.5-72B-Instruct является одной из последних серий крупных языковых моделей, выпущенных Alibaba Cloud. Эта модель 72B демонстрирует значительные улучшения в таких областях, как программирование и математика. Она поддерживает длину контекста до 128K tokens. Модель также предлагает многоязычную поддержку, охватывая более 29 языков, включая китайский, английский и другие. Она показала заметные улучшения в следовании инструкциям, понимании структурированных данных и создании структурированных Outputs, особенно в формате JSON....
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-72B-Instruct
Выпуск: 18 сент. 2024 г.
Qwen2.5-72B-Instruct является одной из последних серий больших языковых моделей, выпущенных Alibaba Cloud. Модель 72B демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает многоязычную поддержку, охватывая более 29 языков, включая китайский и английский. Она показывает заметные улучшения в следовании инструкциям, понимании структурированных данных и генерации структурированных Output, в частности, в формате JSON....
Total Context:
33K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-32B-Instruct
Выпуск: 19 сент. 2024 г.
Qwen2.5-32B-Instruct — это одна из последних серий крупных языковых моделей, выпущенных Alibaba Cloud. Эта модель 32B демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает поддержку нескольких языков, охватывающую более 29 языков, включая китайский, английский и другие. Она показывает заметные улучшения в следовании инструкциям, понимании структурированных данных и генерации структурированных Output, особенно в формате JSON....
Total Context:
33K
Max output:
4K
Input:
$
0.18
/ M Tokens
Output:
$
0.18
/ M Tokens

Qwen
Text Generation
Qwen2.5-14B-Instruct
Выпуск: 18 сент. 2024 г.
Qwen2.5-14B-Instruct является одной из последних серий крупных языковых моделей, выпущенных Alibaba Cloud. Эта модель с 14B демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает поддержку нескольких языков, охватывая более 29 языков, включая китайский и английский. Она показала заметные достижения в следовании инструкциям, понимании структурированных данных и генерации структурированных Outputs, особенно в формате JSON....
Total Context:
33K
Max output:
4K
Input:
$
0.1
/ M Tokens
Output:
$
0.1
/ M Tokens

Qwen
Text Generation
Qwen2.5-7B-Instruct
Выпуск: 18 сент. 2024 г.
Qwen2.5-7B-Instruct является одной из последних серий больших языковых моделей, выпущенных Alibaba Cloud. Эта 7B Model демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает многоязыковую поддержку, охватывая более 29 языков, включая китайский, английский и другие. Модель показывает заметные улучшения в следовании инструкциям, понимании структурированных данных и генерации структурированных Output, особенно JSON....
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens

Meta Llama
Text Generation
Meta-Llama-3.1-8B-Instruct
Выпуск: 23 апр. 2025 г.
Meta Llama 3.1 — это семейство многоязычных больших языковых моделей, разработанных компанией Meta, с предобученными и инструкционно-настроенными вариантами в размерах 8B, 70B и 405B параметров. Эта 8B инструкционно-настроенная Model оптимизирована для многоязычных диалоговых случаев использования и превосходит многие доступные модели на общих отраслевых контрольных точках. Модель была обучена на более чем 15 триллионах tokens общедоступных данных, используя такие техники, как контролируемое Fine-tuning и обучение с подкреплением с обратной связью от человека для повышения полезности и безопасности. Llama 3.1 поддерживает Text и кодогенерацию, с отсечкой знаний на декабрь 2023 года....
Total Context:
33K
Max output:
4K
Input:
$
0.06
/ M Tokens
Output:
$
0.06
/ M Tokens

