Ling-flash-2.0 Теперь на платформе SiliconFlow: флагманская модель MoE, обеспечивающая передовое рассуждение и высокую эффективность

23 сент. 2025 г.

Содержание

Краткий обзор: Ling-flash-2.0 теперь доступен на SiliconFlow — флагманская языковая модель MoE от Ant Group inclusionAI, объединяющая передовое мышление с высокой эффективностью. С 100B общими параметрами, но только 6.1B активированы, она обеспечивает конкурентоспособность в производительности с 40B плотными моделями и 131K окон контекста. Идеально подходит для сложного мышления, программирования и фронтенд-разработки — теперь расширьте свои бизнес и рабочие процессы по доступной цене через наши API-сервисы.

SiliconFlow рад представить вам Ling-flash-2.0, третью модель MoE под архитектурой Ling 2.0. Основанный на успехе Ling-mini-2.0 и Ring-mini-2.0, этот выпуск отражает шаг вперед в объединении эффективности и способности к мышлению. Обученная на более чем 20T высококачественных tokens с многоэтапной подконтрольной тонкой настройкой и обучением с подкреплением, Ling-flash-2.0 сочетает передовой дизайн MoE и реальную универсальность — делая ее мощным выбором для сложного мышления, программирования и приложений для конкретных отраслей.

Через Ling-flash-2.0 API SiliconFlow вы можете ожидать:

Экономичное ценообразование: Ling-flash-2.0 $0.14/M tokens (input) и $0.57/M tokens (output).
Эффективный дизайн MoE: архитектура MoE с 100B общих параметров, только 6.1B активированы (4.8B не включенных в embedding).
Расширенное окно контекста: окно контекста 131K позволяет пользователям решать сложные задачи.
Расширенные возможности: передовое место в мышлении, коде, математике и задачах домена, таких как финансы и здравоохранение.

Почему Ling-flash-2.0 имеет значение

Ling-flash-2.0 стабильно демонстрирует высокую производительность в задачах, требующих знаний, математического, логического и специфичного для отрасли мышления, таких как финансы и здравоохранение. Он также демонстрирует высокую конкурентоспособность в более открытых приложениях, включая творческое письмо.

Важным является то, что Ling-flash-2.0 не только превосходит плотные модели с параметрами менее 40B (Qwen3-32B-Non-Thinking и Seed-OSS-36B (думать бюджет=0)), но также остает конкурентоспособным с более крупными MoE участниками, такими как Hunyuan-80B-A13B-Instruct и GPT-OSS-120B (low), все это при поддержании явных преимуществ в стоимости и эффективности.

Бенчмарк	Ling-flash-2.0	Qwen3-32B-Non-Thinking	Seed-OSS-36B-Instruct (думать бюджет=0)	Hunyuan-80B-A13B-Instruct	GPT-OSS-120B (low)
GPQA-Diamond	🥇68.1	56.2	52.0	61.8	63.4
MMLU-PRO	🥇77.1	69.2	73.2	65.0	74.1
AIME 2025	🥇56.6	23.1	15.0	22.6	51.9
Omni-MATH	🥇53.4	33.8	29.7	39.4	42.3
KOR-Bench	68.8	57.0	44.2	47.6	73.1
ARC-Prize	🥇24.6	3.3	4.4	0.1	10.7
LiveCodeBench v6	🥇51.38	31.5	30.7	25.8	42.7
CodeForces-Elo	🥇1600	678	605	683	1520
OptMATH	🥇39.76	15.51	14.61	2.86	26.96
HealthBench	46.17	43.0	36.9	30.0	56.4
FinanceReasoning	81.59	78.5	78.1	64.3	83.8
Creative Writing V3	🥇85.17	77.57	82.17	59.69	79.09

Что делает Ling-flash-2.0 таким эффективным

Ling-flash-2.0 построен на законах масштабирования Ling и использует 1/32 архитектуру MoE с коэффициентом активации. Вместо грубого масштабирования он вводит ряд усовершенствий дизайна — от гранулярности экспертов и соотношения деления экспертов до сбалансированного внимания, более умных стратегий маршрутизации, многотокенного предсказания, QK-Norm и Partial-RoPE.

Вместе эти инновации позволяют модели доставлять мощность ~40B плотных моделей с помощью всего 6.1B активных параметров, достигая 7× прироста эффективности над эквивалентными плотными архитектурами.

Реальная производительность на SiliconFlow

Этот демо демонстрирует реальную производительность Ling-flash-2.0 в SiliconFlow Playground. Используя простой запрос — "Напишите полный код для игры Snake" — модель быстро генерирует полноценную реализацию, демонстрируя способность интегрировать мышление, программирование и практическое решение проблем в реальном времени.

Начать немедленно

1. Изучите: Попробуйте Ling-flash-2.0 в SiliconFlow playground.
2. Интегрировать: Используйте наш API, совместимые с OpenAI. Изучите полные спецификации API в документации SiliconFlow API.

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

Попробуйте Ling Flash 2.0 прямо сейчас на SiliconFlow и почувствуйте разницу, которую приносит скорость.

Деловые или коммерческие вопросы →

Присоединяйтесь к нашему сообществу Discord сейчас →

Следите за нами на X для получения последних обновлений →

Исследуйте все доступные модели на SiliconFlow →