
inclusionAI
Text Generation
Ling-flash-2.0
Ling-flash-2.0 — это языковая Model от inclusionAI с общим числом параметров 100 миллиардов, из которых 6,1 миллиарда активируются на каждый token (4,8 миллиарда без учета Embedding). Как часть архитектурной серии Ling 2.0, она разработана как легкая, но мощная Model Mixture-of-Experts (MoE). Она стремится обеспечить производительность, сравнимую или даже превосходящую модели плотности уровня 40B и другие более крупные модели MoE, но с значительно меньшим числом активных параметров. Model представляет собой стратегию, нацеленную на достижение высокой производительности и эффективности через экстремальный архитектурный дизайн и методы обучения....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

inclusionAI
Text Generation
Ring-flash-2.0
Ring-flash-2.0 — это высокопроизводительный размышляющий Model, глубоко оптимизированный на базе Ling-flash-2.0-base. Это Model с Поцелуем-Экспертов (MoE) и общим количеством параметров 100B, но только 6.1B активируются при Inference. Этот Model использует независимо разработанный алгоритм 'icepop' для решения проблем нестабильности обучения в обучении с подкреплением (RL) для моделей MoE LLM, обеспечивая непрерывное улучшение своих сложных способностей к рассуждению в течение длительных циклов обучения RL. Ring-flash-2.0 демонстрирует значительные прорывы в сложных эталонных тестах, включая математические соревнования, генерацию кода и логическое рассуждение. Его производительность превосходит SOTA плотные модели под 40B параметров и соперничает с более крупными открытыми MoE-моделями и закрытыми высокопроизводительными размышляющими модельными API. Еще более удивительно, что хотя Ring-flash-2.0 в первую очередь разработан для сложных рассуждений, он также демонстрирует сильные способности в творческом письме. Благодаря своей эффективной архитектуре, он достигает высокой скорости Inference, значительно снижая затраты на Inference для размышляющих моделей в условиях высокой одновременности....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

