Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

Современный

Библиотека моделей ИИ

Один API для запуска Inference на более чем 200 передовых AI Models и развертывания за считанные секунды

MiniMaxAI

Text Generation

MiniMax-M2.5

MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...

Total Context:

197K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

1.2

/ M Tokens

Z.ai

Text Generation

GLM-5

GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....

Total Context:

205K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

2.55

/ M Tokens

StepFun

Text Generation

Step-3.5-Flash

Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...

Total Context:

262K

Max output:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.3

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.5

Kimi K2.5 — это open-source, нативная Multimodal агентская Model, созданная через постоянное предобучение на приблизительно 15 триллионах смешанных визуальных и Text token поверх Kimi-K2-Base. С архитектурой MoE на 1 триллион параметров (32 миллиарда активно) и длиной контекста 256 тысяч, она безупречно интегрирует Vision и понимание языка с расширенными агентскими возможностями, поддерживая как мгновенный, так и обдуманный режимы, а также разговорные и агентские парадигмы....

Total Context:

262K

Max output:

262K

Input:

$

0.23

/ M Tokens

Output:

$

3.0

/ M Tokens

Z.ai

Text Generation

GLM-4.7

GLM-4.7 — это новая флагманская модель компании Zhipu, с общим количеством параметров 355 миллиардов и 32 миллиарда активированных параметров, обеспечивающая комплексные обновления в области общих разговоров, рассуждений и возможностей агентов. Ответы стали более лаконичными и естественными; писательство ощущается более захватывающим; инструкции по вызову инструментов выполняются более надежно; и передний конечный блеск артефактов и агентского кодирования, вместе с эффективностью выполнения задач на большие расстояния, был дополнительно улучшен....

Total Context:

205K

Max output:

205K

Input:

$

0.42

/ M Tokens

Output:

$

2.2

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2

DeepSeek-V3.2 — это модель, которая сочетает в себе высокую вычислительную эффективность с превосходной способностью к рассуждению и агентской производительности. Ее подход основывается на трех ключевых технических прорывах: DeepSeek Sparse Attention (DSA), эффективном механизме внимания, который существенно снижает вычислительную сложность при сохранении производительности модели, специально оптимизированной для сценариев с длинным контекстом; масштабируемой структуры обучения с подкреплением, которая позволяет достичь производительности, сопоставимой с GPT-5, и уровня рассуждений на уровне Gemini-3.0-Pro в его варианте с высокими вычислительными ресурсами; и крупномасштабного конвейера синтеза агентских задач, чтобы интегрировать рассуждения в сценарии использования инструментов, улучшая соответствие и обобщение в сложных интерактивных средах. Модель достигла золотого уровня производительности на Международной математической олимпиаде (IMO) и Международной олимпиаде по информатике (IOI) в 2025 году....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.42

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp — это экспериментальная версия модели DeepSeek, созданная на основе V3.1-Terminus. В ней дебютирует разреженное внимание DeepSeek (DSA) для более быстрого и эффективного обучения и Inference на длинном контексте....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.41

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

Модель GLM-4.6V достигает SOTA (State-of-the-Art) точности в визуальном понимании среди моделей с такими же параметрами. Впервые в мире она встраивает возможности функциональных вызовов непосредственно в архитектуру визуальной модели, что позволяет устранить разрыв между «Визуальным восприятием» и «Исполнимым действием». Это предоставляет единую техническую основу для Multimodal агентов в реальных бизнес-сценариях. Кроме того, визуальное контекстное окно было расширено до 128k, поддерживая обработку длинных видеопотоков и анализ многократных изображений высокого разрешения....

Total Context:

131K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

0.9

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Терминус — это обновленная версия, построенная на сильных сторонах V3.1 с учетом ключевых отзывов пользователей. Она улучшает языковую согласованность, уменьшая количество случаев смешанного китайско-английского текста и периодически встречающихся аномальных символов. Также она обновляет более сильные агенты кода и агенты поиска....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1

DeepSeek-V3.1 — это гибридная Model, поддерживающая как режим мышления, так и режим без мышления. Благодаря оптимизации после обучения, производительность Model в использовании инструментов и выполнении задач агентами значительно улучшилась. DeepSeek-V3.1-Think достигает качества ответов, сопоставимого с DeepSeek-R1-0528, при этом отвечая быстрее....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3

DeepSeek-V3-0324 демонстрирует заметные улучшения по сравнению со своим предшественником, DeepSeek-V3, в нескольких ключевых аспектах, включая значительное повышение производительности рассуждений, более сильные навыки фронтенд-разработки и более умелые возможности использования инструментов....

Total Context:

164K

Max output:

164K

Input:

$

0.25

/ M Tokens

Output:

$

1

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1

DeepSeek-R1-0528 — это обновленная Model, показывающая значительные улучшения в решении сложных задач рассуждения, а также предлагающая сниженную частоту галлюцинаций, улучшенную поддержку вызова функций и лучшее качество работы с кодированием атмосферы. Она достигает производительности, сопоставимой с O3 и Gemini 2.5 Pro....

Total Context:

164K

Max output:

164K

Input:

$

0.5

/ M Tokens

Output:

$

2.18

/ M Tokens

Nex AGI

Text Generation

DeepSeek-V3.1-Nex-N1

DeepSeek-V3.1-Nex-N1 — это большая языковая модель, разработанная на основе передовых моделей с открытым исходным кодом и оптимизированная посредством обучающей доработки. Эта оптимизация значительно улучшает её возможности, что приводит к выдающимся результатам в задачах Aгента и генерации и понимании кода, использовании инструментов и ролевых игр. Модель превосходит в декомпозиции сложных задач на многошаговые планы и в проактивном разъяснении неясностей, чтобы обеспечить надёжное и точное выполнение....

Total Context:

131K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct-0905

Kimi K2-Instruct-0905, новейшая модель смешивания экспертов (MoE), является последней, самой мощной версией Kimi K2. Ключевые особенности включают улучшенные возможности кодирования, особенно для фронтенда и вызова инструментов, длину контекста, увеличенную до 256k tokens, а также улучшенную интеграцию с различными каркасами агентов....

Total Context:

262K

Max output:

262K

Input:

$

0.4

/ M Tokens

Output:

$

2

/ M Tokens

OpenAI

Text Generation

gpt-oss-120b

Серия gpt-oss — это модели OpenAI с открытыми весами, предназначенные для мощного рассуждения, агентных задач и универсальных сценариев использования разработчиками. gpt-oss-120b предназначен для производственных, универсальных задач с высоким уровнем рассуждения, которые помещаются в одно 80 ГБ GPU (например, NVIDIA H100 или AMD MI300X)....

Total Context:

131K

Max output:

8K

Input:

$

0.05

/ M Tokens

Output:

$

0.45

/ M Tokens

OpenAI

Text Generation

gpt-oss-20b

Серия gpt-oss — это открытые модели OpenAI, предназначенные для мощных вычислений, агентных задач и универсальных случаев использования разработчиков. gpt-oss-20b предназначен для меньшей задержки и локальных или специализированных случаев использования....

Total Context:

131K

Max output:

8K

Input:

$

0.04

/ M Tokens

Output:

$

0.18

/ M Tokens

Z.ai

Text Generation

GLM-4.6

По сравнению с GLM-4.5, GLM-4.6 вносит несколько ключевых улучшений, включая более длинное контекстное окно, расширенное до 200K tokens, улучшенную производительность кодирования, продвинутое умозаключение, более способных агентов и усовершенствованное написание....

Total Context:

205K

Max output:

205K

Input:

$

0.39

/ M Tokens

Output:

$

1.9

/ M Tokens

Z.ai

Text Generation

GLM-4.5-Air

Серия моделей GLM-4.5 являются основными моделями, разработанными для интеллектуальных агентов. GLM-4.5-Air использует более компактный дизайн с 106 миллиардами общих параметров и 12 миллиардами активных параметров. Это также гибридная модель, обеспечивающая как режим мышления, так и режим без мышления....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.86

/ M Tokens

inclusionAI

Text Generation

Ling-flash-2.0

Ling-flash-2.0 — это языковая Model от inclusionAI с общим числом параметров 100 миллиардов, из которых 6,1 миллиарда активируются на каждый token (4,8 миллиарда без учета Embedding). Как часть архитектурной серии Ling 2.0, она разработана как легкая, но мощная Model Mixture-of-Experts (MoE). Она стремится обеспечить производительность, сравнимую или даже превосходящую модели плотности уровня 40B и другие более крупные модели MoE, но с значительно меньшим числом активных параметров. Model представляет собой стратегию, нацеленную на достижение высокой производительности и эффективности через экстремальный архитектурный дизайн и методы обучения....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

inclusionAI

Text Generation

Ring-flash-2.0

Ring-flash-2.0 — это высокопроизводительный размышляющий Model, глубоко оптимизированный на базе Ling-flash-2.0-base. Это Model с Поцелуем-Экспертов (MoE) и общим количеством параметров 100B, но только 6.1B активируются при Inference. Этот Model использует независимо разработанный алгоритм 'icepop' для решения проблем нестабильности обучения в обучении с подкреплением (RL) для моделей MoE LLM, обеспечивая непрерывное улучшение своих сложных способностей к рассуждению в течение длительных циклов обучения RL. Ring-flash-2.0 демонстрирует значительные прорывы в сложных эталонных тестах, включая математические соревнования, генерацию кода и логическое рассуждение. Его производительность превосходит SOTA плотные модели под 40B параметров и соперничает с более крупными открытыми MoE-моделями и закрытыми высокопроизводительными размышляющими модельными API. Еще более удивительно, что хотя Ring-flash-2.0 в первую очередь разработан для сложных рассуждений, он также демонстрирует сильные способности в творческом письме. Благодаря своей эффективной архитектуре, он достигает высокой скорости Inference, значительно снижая затраты на Inference для размышляющих моделей в условиях высокой одновременности....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder-480B-A35B-Instruct является самым агентным кодовым Model'ом, выпущенным Alibaba на сегодняшний день. Это модель Mixture-of-Experts (MoE) с общим количеством параметров в 480 миллиардов и 35 миллиардов активированных параметров, достигая баланса между эффективностью и производительностью. Model поддерживает длину контекста в 256K (примерно 262,144) token'ов, которую можно продлить до 1 миллиона token'ов с использованием экстраполяционных методов, таких как YaRN, что позволяет обрабатывать коды репозитарного масштаба и сложные программные задачи. Qwen3-Coder специально разработан для агентных рабочих процессов кодирования, где он не только генерирует код, но и автономно взаимодействует с инструментами разработчика и средами для решения сложных задач. Он достиг передовых результатов среди открытых моделей на различных агентных бенчмарках кодирования, с производительностью, сопоставимой с ведущими Model'ами, такими как Claude Sonnet 4. Наряду с Model'ом, Alibaba также открыла исходный код Qwen Code, инструмент командной строки, разработанный для полного раскрытия мощных агентных возможностей кодирования....

Total Context:

262K

Max output:

262K

Input:

$

0.25

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instruct — это кодовый Model из серии Qwen3, разработанный командой Qwen компании Alibaba. Как упрощенный и оптимизированный Model, он поддерживает впечатляющую производительность и эффективность, сосредотачиваясь на усовершенствованных возможностях кодирования. Он демонстрирует значительное преимущество в производительности среди open-source Models на сложных задачах, таких как агентское кодирование, использование агентского браузера и другие основные задачи кодирования. Model изначально поддерживает долгий контекст из 256K Tokens, который может быть расширен до 1M Tokens, что позволяет лучше понимать и обрабатывать репозитории. Более того, он обеспечивает надежную поддержку агентского кодирования для платформ, таких как Qwen Code и CLINE, с специально разработанным форматом вызова функций....

Total Context:

262K

Max output:

262K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507 — это обновленная версия Qwen3-30B-A3B в режиме без мышления. Это модель (Model) Соединения Экспертов (MoE) с общим количеством параметров 30,5 миллиардов и 3,3 миллиардами активированных параметров. Эта версия обладает ключевыми улучшениями, включая значительные улучшения в общих способностях, таких как следование инструкциям, логическое рассуждение, понимание текста, математика, наука, программирование и использование инструментов. Она также демонстрирует существенные достижения в покрытии долгосрочных знаний на разных языках и предлагает заметно лучшее соответствие с пользовательскими предпочтениями в субъективных и открытых заданиях, что позволяет предоставлять более полезные ответы и создавать высококачественный текст. Более того, её возможности в понимании контекста на дальние расстояния были улучшены до 256K. Эта модель поддерживает только режим без мышления и не генерирует блоки `<think></think>` в своем Output....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Thinking-2507

Qwen3-30B-A3B-Thinking-2507 — это последняя мыслительная Model в серии Qwen3, выпущенная командой Qwen компании Alibaba. Как модель Смешения экспертов (MoE) с общим числом параметров 30,5 миллиардов и активными параметрами 3,3 миллиарда, она сосредоточена на улучшении возможностей для выполнения сложных задач. Model демонстрирует значительно улучшенную производительность в решении задач, требующих рассуждений, включая логические рассуждения, математику, науку, программирование и академические эталоны, которые обычно требуют человеческой экспертизы. Она также показывает заметно более хорошие общие способности, такие как следование инструкциям, использование инструментов, генерация Text и выравнивание с человеческими предпочтениями. Model изначально поддерживает возможность понимания в длинном контексте длиной до 256 тысяч и может быть расширена до 1 миллиона tokens. Эта версия специально разработана для 'режима мышления' для решения очень сложных проблем через пошаговое рассуждение и также выделяется в агентных способностях....

Total Context:

262K

Max output:

131K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Instruct-2507

Qwen3-235B-A22B-Instruct-2507 — флагманская модель на основе смеси экспертов (Mixture-of-Experts, MoE) из серии Qwen3, разработанная командой Qwen от Alibaba Cloud. Эта Model обладает общим количеством 235 миллиардов параметров, из которых 22 миллиарда активируются при каждом проходе вперед. Она была выпущена как обновленная версия режима без мышления Qwen3-235B-A22B, с значительными улучшениями в общих возможностях, таких как следование инструкциям, логическое рассуждение, понимание Text, математика, наука, кодирование и использование инструментов. Кроме того, Model обеспечивает значительное улучшение в покрытии знания длинного хвоста на нескольких языках и демонстрирует заметно лучшее согласование с предпочтениями пользователей в субъективных и открытых задачах, что позволяет генерировать более полезные ответы и Text более высокого качества. В частности, она нативно поддерживает обширное окно контекста размером 256K (262 144 tokens), что повышает её возможности для понимания длинных контекстов. Эта версия исключительно поддерживает режим без мышления и не генерирует блоки <think>, стремясь предоставить более эффективные и точные ответы для задач, таких как прямые вопросы и ответы, и извлечение знаний....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-Thinking-2507 является членом серии больших языковых Model Qwen3, разработанной командой Qwen компании Alibaba, специализирующейся на задачах сложного рассуждения. Model построена на архитектуре Mixture-of-Experts (MoE), с общим количеством параметров в 235 миллиардов и примерно 22 миллиардов активированных параметров на token, что повышает вычислительную эффективность при сохранении мощной производительности. Как специализированная 'мыслящая' Model, она демонстрирует значительно улучшенные результаты в выполнении задач, требующих человеческой экспертности, таких как логическое рассуждение, математика, наука, кодирование и академические контрольные показатели, достигая наивысших результатов среди моделей с открытым исходным кодом для мышления. Кроме того, Model имеет расширенные общие возможности, такие как следование инструкциям, использование инструментов и генерация Text, и нативно поддерживает способность восприятия в длинном контексте 256K, что делает её идеальной для сценариев, требующих глубоких размышлений и обработки длинных документов....

Total Context:

262K

Max output:

262K

Input:

$

0.13

/ M Tokens

Output:

$

0.6

/ M Tokens

ByteDance

Text Generation

Seed-OSS-36B-Instruct

Seed-OSS — это серия крупных языковых моделей с открытым исходным кодом, разработанных командой ByteDance Seed, предназначенная для мощной обработки длинных контекстов, рассуждений, агентных возможностей и универсальных способностей. В этой серии Seed-OSS-36B-Instruct представляет собой настроенную на инструкции модель с 36 миллиардами параметров, которая изначально поддерживает ультрадлинную длину контекста, что позволяет ей обрабатывать массивные документы или сложные кодовые базы в один проход. Модель специально оптимизирована для рассуждений, генерации кода и агентных задач (таких как использование инструментов), сохраняя при этом сбалансированные и отличные универсальные возможности. Ключевой особенностью этой модели является функция «Бюджет мышления», которая позволяет пользователям гибко регулировать длину рассуждений по мере необходимости, тем самым эффективно повышая эффективность Inference в практических приложениях....

Total Context:

262K

Max output:

262K

Input:

$

0.21

/ M Tokens

Output:

$

0.57

/ M Tokens

BAIDU

Text Generation

ERNIE-4.5-300B-A47B

ERNIE-4.5-300B-A47B — это крупная языковая Model, разработанная Baidu на основе архитектуры Mixture-of-Experts (MoE). У этой Model в общей сложности 300 миллиардов параметров, но во время Inference активируется только 47 миллиардов параметров на один token, что позволяет сбалансировать мощную производительность с вычислительной эффективностью. Будучи одной из основных Models в серии ERNIE 4.5, она обучена на платформе глубокого обучения PaddlePaddle и демонстрирует выдающиеся возможности в таких задачах, как Text понимание, генерация, логическое мышление и кодирование. Model использует инновационный Multimodal гетерогенный метод предварительного обучения MoE, который эффективно улучшает ее общие способности через совместное обучение на тексте и визуальных модальностях, показывая выдающиеся результаты в следовании инструкциям и запоминании мировых знаний. Baidu открыла исходный код этой Model, а также других в серии, чтобы способствовать исследованию и применению AI технологии....

Total Context:

131K

Max output:

131K

Input:

$

0.28

/ M Tokens

Output:

$

1.1

/ M Tokens

Tencent

Text Generation

Hunyuan-A13B-Instruct

Hunyuan-A13B-Instruct активирует только 13 B из своих 80 B параметров, но при этом соответствует более крупным LLM на основных бенчмарках. Он предлагает гибридное рассуждение: режим с низкой задержкой "быстрый" или режим с высокой Precision "медленный", переключаемый при каждом вызове. Родной контекст 256 K-token позволяет обрабатывать документы книжной длины без деградации. Навыки агента настроены для лидерства в BFCL-v3, τ-Bench и C3-Bench, что делает его отличной автономной основой для помощника. Группированное внимание к запросам плюс многоформатная квантизация обеспечивают легкое по памяти и эффективное использование GPU Inference для реального внедрения, с встроенной мультиязычной поддержкой и надежным согласованием безопасности для приложений корпоративного уровня....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct

Kimi K2 — это базовая модель со смесью экспертов (Mixture-of-Experts, MoE) с исключительными возможностями кодирования и агентирования, содержащая 1 триллион общих параметров и 32 миллиарда активированных параметров. В оценках по эталонным тестам, охватывающим общие знания, программирование, математику и задачи, связанные с агентами, модель K2 превосходит другие ведущие модели с открытым исходным кодом....

Total Context:

131K

Max output:

131K

Input:

$

0.58

/ M Tokens

Output:

$

2.29

/ M Tokens

Qwen

Text Generation

Qwen3-32B

Qwen3-32B — это последняя большая языковая модель в серии Qwen с 32.8 миллиардами параметров. Эта модель уникально поддерживает плавное переключение между режимом мышления (для сложного логического рассуждения, математики и программирования) и режимом немышления (для эффективного, универсального диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие instruct модели QwQ и Qwen2.5 в математике, генерации кода и логическом рассуждении на уровне здравого смысла. Модель превосходит в выравнивании человеческих предпочтений для творческого письма, ролевых игр и диалогов с множественными ходами. Кроме того, она поддерживает более 100 языков и диалектов с сильными возможностями следования многоязычным инструкциям и перевода....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-14B

Qwen3-14B — это последняя большая языковая Model в серии Qwen с 14.8 миллиардами параметров. Эта Model уникально поддерживает бесшовное переключение между режимом мышления (для сложного логического мышления, математики и программирования) и режимом немышления (для эффективного, универсального диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие instruct-модели QwQ и Qwen2.5 в математике, генерации кода и логическом рассуждении на уровне здравого смысла. Model превосходит в согласовании предпочтений человека для креативного письма, ролевых игр и многоходовых диалогов. Кроме того, она поддерживает более 100 языков и диалектов с сильными возможностями мульти-языковых инструкций и переводов....

Total Context:

131K

Max output:

131K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-8B

Qwen3-8B — это последняя крупная языковая модель в серии Qwen с параметрами 8.2B. Эта модель уникально поддерживает бесперебойное переключение между режимом мышления (для сложного логического рассуждения, математики и программирования) и режимом немысли (для эффективного, общего диалога). Она демонстрирует значительно улучшенные способности к рассуждению, превосходя предыдущие модели QwQ и Qwen2.5 в обучении математике, генерации кода и логическом рассуждении здравого смысла. Модель преуспевает в соотношении человеческих предпочтений для креативного письма, ролевых игр и многошаговых диалогов. Кроме того, она поддерживает более 100 языков и диалектов с сильными мультиязычными инструкциями и возможностями перевода....

Total Context:

131K

Max output:

131K

Input:

$

0.06

/ M Tokens

Output:

$

0.06

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-8B

Qwen3-Reranker-8B — это модель повторного ранжирования текста с 8 миллиардами параметров из серии Qwen3. Она разработана для улучшения и повышения качества результатов поиска путем точного переупорядочивания документов на основе их релевантности запросу. Построенная на мощных фундаментальных моделях Qwen3, она отлично понимает длинный текст с контекстной длиной в 32k и поддерживает более 100 языков. Модель Qwen3-Reranker-8B является частью гибкой серии, которая предлагает передовые возможности в различных сценариях поиска текста и кода....

$

0.04

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-8B

Qwen3-Embedding-8B — это последняя проприетарная Model в серии Qwen3 Embedding, специально разработанная для задач встраивания и ранжирования Text. Построенная на основе плотных фундаментальных моделей серии Qwen3, эта модель с 8 миллиардами параметров поддерживает длину контекста до 32K и может генерировать встраивания с размерами до 4096. Model наследует исключительные мультиязыковые возможности, поддерживающие более 100 языков, а также навыки понимания и рассуждения с длинными Text. Она занимает первое место в многоязычном рейтинге MTEB (по состоянию на 5 июня 2025 года, оценка 70.58) и демонстрирует передовые показатели в различных задачах, включая извлечение Text, извлечение кода, классификацию Text, кластеризацию и битекстовый майнинг. Model предлагает гибкие размеры векторов (от 32 до 4096) и возможности, учитывающие инструкции, для улучшения производительности в определённых задачах и сценариях....

Input:

$

0.04

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-4B

Qwen3-Embedding-4B является последней проприетарной моделью в серии Qwen3 Embedding, специально разработанной для задач эмбеддинга текстов и ранжирования. Построенная на основе плотных основополагающих моделей серии Qwen3, эта модель с 4 миллиардами параметров поддерживает длины контекста до 32 тысяч и может генерировать эмбединги с размерностями до 2560. Модель наследует исключительные возможности мультиязычной поддержки, охватывающие более 100 языков, а также навыки понимания и анализа длинных текстов. Она достигает отличных результатов на многоязычном рейтинге MTEB (оценка 69.45) и демонстрирует выдающиеся результаты в различных задачах, включая поиск текста, поиск кода, классификацию текстов, кластеризацию и добычу двуязычных текстов. Модель предлагает гибкие размерности векторов (от 32 до 2560) и возможности с учетом инструкций для улучшенной производительности в конкретных задачах и сценариях, обеспечивая оптимальный баланс между эффективностью и эффективностью....

Input:

$

0.02

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-0.6B

Qwen3-Reranker-0.6B — это Text модель упорядочивания из серии Qwen3. Она специально предназначена для уточнения результатов начальных систем поиска, переставляя документы на основе их релевантности данному запросу. Имея 0.6 миллиардов параметров и длину контекста 32k, эта Model использует сильные многолингвальные (поддерживающие более 100 языков), способности к пониманию длинных текстов и умозаключение своей Qwen3 платформы. Результаты оценки показывают, что Qwen3-Reranker-0.6B достигает высокого уровня производительности по различным критериям поиска текстов, включая MTEB-R, CMTEB-R и MLDR....

$

0.01

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-0.6B

Qwen3-Embedding-0.6B является последней проприетарной моделью в серии Qwen3 Embedding, специально разработанной для задач текстового встраивания и ранжирования. Построенная на основе плотных фундаментальных моделей серии Qwen3, эта модель с 0.6B параметрами поддерживает длины контекста до 32K и может генерировать встраивания с размерами до 1024. Модель наследует исключительные мультиязычные возможности, поддерживающие более 100 языков, а также навыки понимания длинного текста и рассуждения. Она достигает высокой производительности на многоязычной лидерборде MTEB (оценка 64.33) и демонстрирует отличные результаты в различных задачах, включая извлечение текста, извлечение кода, классификацию текста, кластеризацию и майнинг двуязычных текстов. Модель предлагает гибкие размеры векторов (от 32 до 1024) и возможности, осведомленные об инструкциях, для улучшенной производительности в конкретных задачах и сценариях, делая её идеальным выбором для приложений, приоритетизирующих как эффективность, так и результативность....

Input:

$

0.01

/ M Tokens

Qwen

Text Generation

QwQ-32B

QwQ — это рассуждающая модель серии Qwen. По сравнению с обычными моделями с настройкой на инструкции, QwQ, способная думать и рассуждать, может добиться значительно улучшенной производительности в последующих задачах, особенно в сложных проблемах. QwQ-32B — это средняя по размеру рассуждающая модель, способная достигать конкурентных показателей в сравнении с передовыми рассуждающими моделями, например, DeepSeek-R1, o1-mini. Модель включает такие технологии, как RoPE, SwiGLU, RMSNorm и Attention QKV bias, с 64 слоями и 40 Q головы внимания (8 для KV в архитектуре GQA)...

Total Context:

131K

Max output:

131K

Input:

$

0.15

/ M Tokens

Output:

$

0.58

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B является дистиллированной Model на основе Qwen2.5-32B. Модель была тонко настроена с использованием 800 тысяч отобранных образцов, сгенерированных DeepSeek-R1, и демонстрирует исключительную производительность в задачах по математике, программированию и рассуждениям. Она достигла впечатляющих результатов в различных тестах, включая AIME 2024, MATH-500 и GPQA Diamond, с заметной точностью 94,3% на MATH-500, демонстрируя её сильные математические способности....

Total Context:

131K

Max output:

131K

Input:

$

0.18

/ M Tokens

Output:

$

0.18

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct

Qwen2.5-72B-Instruct является одной из последних серий больших языковых моделей, выпущенных Alibaba Cloud. Модель 72B демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает многоязычную поддержку, охватывая более 29 языков, включая китайский и английский. Она показывает заметные улучшения в следовании инструкциям, понимании структурированных данных и генерации структурированных Output, в частности, в формате JSON....

Total Context:

33K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-7B-Instruct

Qwen2.5-7B-Instruct является одной из последних серий больших языковых моделей, выпущенных Alibaba Cloud. Эта 7B Model демонстрирует значительные улучшения в таких областях, как программирование и математика. Модель также предлагает многоязыковую поддержку, охватывая более 29 языков, включая китайский, английский и другие. Модель показывает заметные улучшения в следовании инструкциям, понимании структурированных данных и генерации структурированных Output, особенно JSON....

Total Context:

33K

Max output:

4K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Russian (Russia)
Russian (Russia)
Russian (Russia)