Ling-flash-2.0 Теперь на платформе SiliconFlow: флагманская модель MoE, обеспечивающая передовое рассуждение и высокую эффективность

23 сент. 2025 г.

Содержание

Ling-flash-2.0 Теперь на SiliconFlow
Ling-flash-2.0 Теперь на SiliconFlow

Краткий обзор: Ling-flash-2.0 теперь доступен на SiliconFlow — флагманская языковая модель MoE от Ant Group inclusionAI, объединяющая передовое мышление с высокой эффективностью. С 100B общими параметрами, но только 6.1B активированы, она обеспечивает конкурентоспособность в производительности с 40B плотными моделями и 131K окон контекста. Идеально подходит для сложного мышления, программирования и фронтенд-разработки — теперь расширьте свои бизнес и рабочие процессы по доступной цене через наши API-сервисы.


SiliconFlow рад представить вам Ling-flash-2.0, третью модель MoE под архитектурой Ling 2.0. Основанный на успехе Ling-mini-2.0 и Ring-mini-2.0, этот выпуск отражает шаг вперед в объединении эффективности и способности к мышлению. Обученная на более чем 20T высококачественных tokens с многоэтапной подконтрольной тонкой настройкой и обучением с подкреплением, Ling-flash-2.0 сочетает передовой дизайн MoE и реальную универсальность — делая ее мощным выбором для сложного мышления, программирования и приложений для конкретных отраслей.


Через Ling-flash-2.0 API SiliconFlow вы можете ожидать:


  • Экономичное ценообразование: Ling-flash-2.0 $0.14/M tokens (input) и $0.57/M tokens (output).

  • Эффективный дизайн MoE: архитектура MoE с 100B общих параметров, только 6.1B активированы (4.8B не включенных в embedding).

  • Расширенное окно контекста: окно контекста 131K позволяет пользователям решать сложные задачи.

  • Расширенные возможности: передовое место в мышлении, коде, математике и задачах домена, таких как финансы и здравоохранение.


Почему Ling-flash-2.0 имеет значение


Ling-flash-2.0 стабильно демонстрирует высокую производительность в задачах, требующих знаний, математического, логического и специфичного для отрасли мышления, таких как финансы и здравоохранение. Он также демонстрирует высокую конкурентоспособность в более открытых приложениях, включая творческое письмо.


Важным является то, что Ling-flash-2.0 не только превосходит плотные модели с параметрами менее 40B (Qwen3-32B-Non-Thinking и Seed-OSS-36B (думать бюджет=0)), но также остает конкурентоспособным с более крупными MoE участниками, такими как Hunyuan-80B-A13B-Instruct и GPT-OSS-120B (low), все это при поддержании явных преимуществ в стоимости и эффективности.


Бенчмарк

Ling-flash-2.0

Qwen3-32B-Non-Thinking

Seed-OSS-36B-Instruct (думать бюджет=0)

Hunyuan-80B-A13B-Instruct

GPT-OSS-120B (low)

GPQA-Diamond

🥇68.1

56.2

52.0

61.8

63.4

MMLU-PRO

🥇77.1

69.2

73.2

65.0

74.1

AIME 2025

🥇56.6

23.1

15.0

22.6

51.9

Omni-MATH

🥇53.4

33.8

29.7

39.4

42.3

KOR-Bench

68.8

57.0

44.2

47.6

73.1

ARC-Prize

🥇24.6

3.3

4.4

0.1

10.7

LiveCodeBench v6

🥇51.38

31.5

30.7

25.8

42.7

CodeForces-Elo

🥇1600

678

605

683

1520

OptMATH

🥇39.76

15.51

14.61

2.86

26.96

HealthBench

46.17

43.0

36.9

30.0

56.4

FinanceReasoning

81.59

78.5

78.1

64.3

83.8

Creative Writing V3

🥇85.17

77.57

82.17

59.69

79.09


Что делает Ling-flash-2.0 таким эффективным


Ling-flash-2.0 построен на законах масштабирования Ling и использует 1/32 архитектуру MoE с коэффициентом активации. Вместо грубого масштабирования он вводит ряд усовершенствий дизайна — от гранулярности экспертов и соотношения деления экспертов до сбалансированного внимания, более умных стратегий маршрутизации, многотокенного предсказания, QK-Norm и Partial-RoPE.


Вместе эти инновации позволяют модели доставлять мощность ~40B плотных моделей с помощью всего 6.1B активных параметров, достигая 7× прироста эффективности над эквивалентными плотными архитектурами.


Image


Реальная производительность на SiliconFlow


Этот демо демонстрирует реальную производительность Ling-flash-2.0 в SiliconFlow Playground. Используя простой запрос — "Напишите полный код для игры Snake" — модель быстро генерирует полноценную реализацию, демонстрируя способность интегрировать мышление, программирование и практическое решение проблем в реальном времени.


Image


Начать немедленно


  1. 1. Изучите: Попробуйте Ling-flash-2.0 в SiliconFlow playground.

  2. 2. Интегрировать: Используйте наш API, совместимые с OpenAI. Изучите полные спецификации API в документации SiliconFlow API.


import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())


Попробуйте Ling Flash 2.0 прямо сейчас на SiliconFlow и почувствуйте разницу, которую приносит скорость.


Деловые или коммерческие вопросы →

Присоединяйтесь к нашему сообществу Discord сейчас →

Следите за нами на X для получения последних обновлений →

Исследуйте все доступные модели на SiliconFlow →



Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Russian (Russia)
Russian (Russia)
Russian (Russia)