Ling-flash-2.0 Теперь на платформе SiliconFlow: флагманская модель MoE, обеспечивающая передовое рассуждение и высокую эффективность
23 сент. 2025 г.
Содержание
Краткий обзор: Ling-flash-2.0 теперь доступен на SiliconFlow — флагманская языковая модель MoE от Ant Group inclusionAI, объединяющая передовое мышление с высокой эффективностью. С 100B общими параметрами, но только 6.1B активированы, она обеспечивает конкурентоспособность в производительности с 40B плотными моделями и 131K окон контекста. Идеально подходит для сложного мышления, программирования и фронтенд-разработки — теперь расширьте свои бизнес и рабочие процессы по доступной цене через наши API-сервисы.
SiliconFlow рад представить вам Ling-flash-2.0, третью модель MoE под архитектурой Ling 2.0. Основанный на успехе Ling-mini-2.0 и Ring-mini-2.0, этот выпуск отражает шаг вперед в объединении эффективности и способности к мышлению. Обученная на более чем 20T высококачественных tokens с многоэтапной подконтрольной тонкой настройкой и обучением с подкреплением, Ling-flash-2.0 сочетает передовой дизайн MoE и реальную универсальность — делая ее мощным выбором для сложного мышления, программирования и приложений для конкретных отраслей.
Через Ling-flash-2.0 API SiliconFlow вы можете ожидать:
Экономичное ценообразование: Ling-flash-2.0 $0.14/M tokens (input) и $0.57/M tokens (output).
Эффективный дизайн MoE: архитектура MoE с 100B общих параметров, только 6.1B активированы (4.8B не включенных в embedding).
Расширенное окно контекста: окно контекста 131K позволяет пользователям решать сложные задачи.
Расширенные возможности: передовое место в мышлении, коде, математике и задачах домена, таких как финансы и здравоохранение.
Почему Ling-flash-2.0 имеет значение
Ling-flash-2.0 стабильно демонстрирует высокую производительность в задачах, требующих знаний, математического, логического и специфичного для отрасли мышления, таких как финансы и здравоохранение. Он также демонстрирует высокую конкурентоспособность в более открытых приложениях, включая творческое письмо.
Важным является то, что Ling-flash-2.0 не только превосходит плотные модели с параметрами менее 40B (Qwen3-32B-Non-Thinking и Seed-OSS-36B (думать бюджет=0)), но также остает конкурентоспособным с более крупными MoE участниками, такими как Hunyuan-80B-A13B-Instruct и GPT-OSS-120B (low), все это при поддержании явных преимуществ в стоимости и эффективности.
Бенчмарк | Ling-flash-2.0 | Qwen3-32B-Non-Thinking | Seed-OSS-36B-Instruct (думать бюджет=0) | Hunyuan-80B-A13B-Instruct | GPT-OSS-120B (low) |
|---|---|---|---|---|---|
GPQA-Diamond | 🥇68.1 | 56.2 | 52.0 | 61.8 | 63.4 |
MMLU-PRO | 🥇77.1 | 69.2 | 73.2 | 65.0 | 74.1 |
AIME 2025 | 🥇56.6 | 23.1 | 15.0 | 22.6 | 51.9 |
Omni-MATH | 🥇53.4 | 33.8 | 29.7 | 39.4 | 42.3 |
KOR-Bench | 68.8 | 57.0 | 44.2 | 47.6 | 73.1 |
ARC-Prize | 🥇24.6 | 3.3 | 4.4 | 0.1 | 10.7 |
LiveCodeBench v6 | 🥇51.38 | 31.5 | 30.7 | 25.8 | 42.7 |
CodeForces-Elo | 🥇1600 | 678 | 605 | 683 | 1520 |
OptMATH | 🥇39.76 | 15.51 | 14.61 | 2.86 | 26.96 |
HealthBench | 46.17 | 43.0 | 36.9 | 30.0 | 56.4 |
FinanceReasoning | 81.59 | 78.5 | 78.1 | 64.3 | 83.8 |
Creative Writing V3 | 🥇85.17 | 77.57 | 82.17 | 59.69 | 79.09 |
Что делает Ling-flash-2.0 таким эффективным
Ling-flash-2.0 построен на законах масштабирования Ling и использует 1/32 архитектуру MoE с коэффициентом активации. Вместо грубого масштабирования он вводит ряд усовершенствий дизайна — от гранулярности экспертов и соотношения деления экспертов до сбалансированного внимания, более умных стратегий маршрутизации, многотокенного предсказания, QK-Norm и Partial-RoPE.
Вместе эти инновации позволяют модели доставлять мощность ~40B плотных моделей с помощью всего 6.1B активных параметров, достигая 7× прироста эффективности над эквивалентными плотными архитектурами.

Реальная производительность на SiliconFlow
Этот демо демонстрирует реальную производительность Ling-flash-2.0 в SiliconFlow Playground. Используя простой запрос — "Напишите полный код для игры Snake" — модель быстро генерирует полноценную реализацию, демонстрируя способность интегрировать мышление, программирование и практическое решение проблем в реальном времени.

Начать немедленно
1. Изучите: Попробуйте Ling-flash-2.0 в SiliconFlow playground.
2. Интегрировать: Используйте наш API, совместимые с OpenAI. Изучите полные спецификации API в документации SiliconFlow API.
Попробуйте Ling Flash 2.0 прямо сейчас на SiliconFlow и почувствуйте разницу, которую приносит скорость.
Деловые или коммерческие вопросы →
Присоединяйтесь к нашему сообществу Discord сейчас →
Следите за нами на X для получения последних обновлений →
Исследуйте все доступные модели на SiliconFlow →

