DeepSeek
Text Generation
DeepSeek-V3.2
Выпуск: 4 дек. 2025 г.
DeepSeek-V3.2 — это модель, которая сочетает в себе высокую вычислительную эффективность с превосходной способностью к рассуждению и агентской производительности. Ее подход основывается на трех ключевых технических прорывах: DeepSeek Sparse Attention (DSA), эффективном механизме внимания, который существенно снижает вычислительную сложность при сохранении производительности модели, специально оптимизированной для сценариев с длинным контекстом; масштабируемой структуры обучения с подкреплением, которая позволяет достичь производительности, сопоставимой с GPT-5, и уровня рассуждений на уровне Gemini-3.0-Pro в его варианте с высокими вычислительными ресурсами; и крупномасштабного конвейера синтеза агентских задач, чтобы интегрировать рассуждения в сценарии использования инструментов, улучшая соответствие и обобщение в сложных интерактивных средах. Модель достигла золотого уровня производительности на Международной математической олимпиаде (IMO) и Международной олимпиаде по информатике (IOI) в 2025 году....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.42
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2-Exp
Выпуск: 10 окт. 2025 г.
DeepSeek-V3.2-Exp — это экспериментальная версия модели DeepSeek, созданная на основе V3.1-Terminus. В ней дебютирует разреженное внимание DeepSeek (DSA) для более быстрого и эффективного обучения и Inference на длинном контексте....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.41
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1-Terminus
Выпуск: 29 сент. 2025 г.
DeepSeek-V3.1-Терминус — это обновленная версия, построенная на сильных сторонах V3.1 с учетом ключевых отзывов пользователей. Она улучшает языковую согласованность, уменьшая количество случаев смешанного китайско-английского текста и периодически встречающихся аномальных символов. Также она обновляет более сильные агенты кода и агенты поиска....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1
Выпуск: 25 авг. 2025 г.
DeepSeek-V3.1 — это гибридная Model, поддерживающая как режим мышления, так и режим без мышления. Благодаря оптимизации после обучения, производительность Model в использовании инструментов и выполнении задач агентами значительно улучшилась. DeepSeek-V3.1-Think достигает качества ответов, сопоставимого с DeepSeek-R1-0528, при этом отвечая быстрее....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3
Выпуск: 26 дек. 2024 г.
DeepSeek-V3-0324 демонстрирует заметные улучшения по сравнению со своим предшественником, DeepSeek-V3, в нескольких ключевых аспектах, включая значительное повышение производительности рассуждений, более сильные навыки фронтенд-разработки и более умелые возможности использования инструментов....
Total Context:
164K
Max output:
164K
Input:
$
0.25
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1
Выпуск: 28 мая 2025 г.
DeepSeek-R1-0528 — это обновленная Model, показывающая значительные улучшения в решении сложных задач рассуждения, а также предлагающая сниженную частоту галлюцинаций, улучшенную поддержку вызова функций и лучшее качество работы с кодированием атмосферы. Она достигает производительности, сопоставимой с O3 и Gemini 2.5 Pro....
Total Context:
164K
Max output:
164K
Input:
$
0.5
/ M Tokens
Output:
$
2.18
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-32B
Выпуск: 20 янв. 2025 г.
DeepSeek-R1-Distill-Qwen-32B является дистиллированной Model на основе Qwen2.5-32B. Модель была тонко настроена с использованием 800 тысяч отобранных образцов, сгенерированных DeepSeek-R1, и демонстрирует исключительную производительность в задачах по математике, программированию и рассуждениям. Она достигла впечатляющих результатов в различных тестах, включая AIME 2024, MATH-500 и GPQA Diamond, с заметной точностью 94,3% на MATH-500, демонстрируя её сильные математические способности....
Total Context:
131K
Max output:
131K
Input:
$
0.18
/ M Tokens
Output:
$
0.18
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-14B
Выпуск: 20 янв. 2025 г.
DeepSeek-R1-Distill-Qwen-14B — это дистиллированная модель, основанная на Qwen2.5-14B. Модель была доработана с использованием 800 тысяч отобранных образцов, созданных DeepSeek-R1, и демонстрирует сильные способности к аргументации. Она достигла впечатляющих результатов на различных тестах, включая 93,9% точности на MATH-500, 69,7% проходного балла на AIME 2024 и рейтинг 1481 на CodeForces, демонстрируя свои мощные способности в решении задач по математике и программированию....
Total Context:
131K
Max output:
131K
Input:
$
0.1
/ M Tokens
Output:
$
0.1
/ M Tokens
DeepSeek
Text Generation
deepseek-vl2
Выпуск: 13 дек. 2024 г.
DeepSeek-VL2 — это смешанный эксперт (MoE) Vision-языковая Model, разработанная на базе DeepSeekMoE-27B, использующая разреженную активированную MoE архитектуру для достижения превосходной производительности при всего 4.5B активных параметрах. Model превосходит в различных задачах, включая визуальные вопросы и ответы, оптическое распознавание символов, понимание документов/таблиц/графиков и визуальное заземление. В сравнении с существующими опенсорсными плотными моделями и моделями на основе MoE, она демонстрирует конкурентные или передовые показатели производительности, используя те же или меньшее количество активных параметров....
Total Context:
4K
Max output:
4K
Input:
$
0.15
/ M Tokens
Output:
$
0.15
/ M Tokens

