
inclusionAI
Text Generation
Ling-flash-2.0
Выпуск: 18 сент. 2025 г.
Ling-flash-2.0 — это языковая Model от inclusionAI с общим числом параметров 100 миллиардов, из которых 6,1 миллиарда активируются на каждый token (4,8 миллиарда без учета Embedding). Как часть архитектурной серии Ling 2.0, она разработана как легкая, но мощная Model Mixture-of-Experts (MoE). Она стремится обеспечить производительность, сравнимую или даже превосходящую модели плотности уровня 40B и другие более крупные модели MoE, но с значительно меньшим числом активных параметров. Model представляет собой стратегию, нацеленную на достижение высокой производительности и эффективности через экстремальный архитектурный дизайн и методы обучения....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

inclusionAI
Text Generation
Ling-mini-2.0
Выпуск: 10 сент. 2025 г.
Ling-mini-2.0 — это маленькая, но высокопроизводительная большая языковая Model, построенная на архитектуре MoE. Она имеет 16 миллиардов общих параметров, но только 1,4 миллиарда активируются на каждый token (не-Embedding 789 миллионов), что обеспечивает чрезвычайно быструю генерацию. Благодаря эффективному дизайну MoE и крупномасштабным высококачественным обучающим данным, несмотря на наличие всего 1,4 миллиарда активированных параметров, Ling-mini-2.0 все равно демонстрирует высочайшую производительность в downstream задачах, сопоставимую с плотными LLM до 10 миллиардов и даже более крупными моделями MoE....
Total Context:
131K
Max output:
131K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

inclusionAI
Text Generation
Ring-flash-2.0
Выпуск: 29 сент. 2025 г.
Ring-flash-2.0 — это высокопроизводительный размышляющий Model, глубоко оптимизированный на базе Ling-flash-2.0-base. Это Model с Поцелуем-Экспертов (MoE) и общим количеством параметров 100B, но только 6.1B активируются при Inference. Этот Model использует независимо разработанный алгоритм 'icepop' для решения проблем нестабильности обучения в обучении с подкреплением (RL) для моделей MoE LLM, обеспечивая непрерывное улучшение своих сложных способностей к рассуждению в течение длительных циклов обучения RL. Ring-flash-2.0 демонстрирует значительные прорывы в сложных эталонных тестах, включая математические соревнования, генерацию кода и логическое рассуждение. Его производительность превосходит SOTA плотные модели под 40B параметров и соперничает с более крупными открытыми MoE-моделями и закрытыми высокопроизводительными размышляющими модельными API. Еще более удивительно, что хотя Ring-flash-2.0 в первую очередь разработан для сложных рассуждений, он также демонстрирует сильные способности в творческом письме. Благодаря своей эффективной архитектуре, он достигает высокой скорости Inference, значительно снижая затраты на Inference для размышляющих моделей в условиях высокой одновременности....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

