목차
요약: Ling-flash-2.0는 이제 SiliconFlow에서 사용할 수 있습니다 — Ant Group inclusionAI의 주력 MoE 언어 Model로, 최첨단 추론과 고급 효율성을 결합합니다. 100B 총 매개변수 중 6.1B만 활성화되어 있으며, 40B 조밀한 Model과 경쟁할 수 있는 성능을 제공하고 131K 컨텍스트 창을 제공합니다. 복잡한 추론, 코딩, 프론트엔드 개발에 완벽하며, 이제 예산 친화적인 비용을 통해 API 서비스를 통해 비즈니스와 워크플로우를 강화하세요.
SiliconFlow는 Ling-flash-2.0를 제공하게 되어 기쁘게 생각합니다, Ling 2.0 구조 하의 세 번째 MoE Model입니다. Ling-mini-2.0와 Ring-mini-2.0의 성공을 기반으로, 이 출시 버전은 효율성과 추론 능력을 결합하는 데 있어 한 걸음 더 나아갔음을 반영합니다. 20T 이상의 고품질 tokens으로 학습하여 다단계 지도 Fine-tuning과 강화 학습을 통해 Ling-flash-2.0은 고급 MoE 설계를 실제 세계 범용성으로 결합하여 복잡한 추론, 코딩 및 산업 특화 애플리케이션에 강력한 선택지가 됩니다.
SiliconFlow의 Ling-flash-2.0 API를 통해 기대할 수 있습니다:
경제적인 가격: Ling-flash-2.0 tokens(입력)당 $0.14/M 및 tokens(출력)당 $0.57/M.
효율적인 MoE 설계: MoE 구조는 100B 총 매개변수 중 6.1B만 활성화(4.8B 비-Embedding)되어 있습니다.
확장된 컨텍스트 창: 131K 컨텍스트 창은 사용자가 복잡한 작업을 처리할 수 있게 합니다.
고급 기능: 추론, 코드, 수학 및 금융 & 헬스케어와 같은 도메인 작업에서 최첨단 기술을 자랑합니다.
Ling-flash-2.0의 중요성
Ling-flash-2.0은 지식 집약적, 수학적, 코딩, 논리 및 도메인 특정 작업, 예를 들어 금융 및 헬스케어에서 지속적으로 강력한 성능을 제공합니다. 또한 창의적인 글쓰기와 같은 보다 열린 응용 분야에서도 높은 경쟁력을 입증합니다.
중요한 것은 Ling-flash-2.0이 Qwen3-32B-Non-Thinking 와 Seed-OSS-36B (생각 예산=0)과 같은 40B 매개변수 이하의 조밀한 Model들을 능가할 뿐만 아니라, Hunyuan-80B-A13B-Instruct 와 GPT-OSS-120B (낮음)과 같은 큰 MoE 동료들과도 경쟁력을 유지하며 명확한 비용과 효율성 이점을 유지합니다.
벤치마크 | Ling-flash-2.0 | Qwen3-32B-Non-Thinking | Seed-OSS-36B-Instruct (생각 예산=0) | Hunyuan-80B-A13B-Instruct | GPT-OSS-120B (낮음) |
|---|---|---|---|---|---|
GPQA-Diamond | 🥇68.1 | 56.2 | 52.0 | 61.8 | 63.4 |
MMLU-PRO | 🥇77.1 | 69.2 | 73.2 | 65.0 | 74.1 |
AIME 2025 | 🥇56.6 | 23.1 | 15.0 | 22.6 | 51.9 |
Omni-MATH | 🥇53.4 | 33.8 | 29.7 | 39.4 | 42.3 |
KOR-Bench | 68.8 | 57.0 | 44.2 | 47.6 | 73.1 |
ARC-Prize | 🥇24.6 | 3.3 | 4.4 | 0.1 | 10.7 |
LiveCodeBench v6 | 🥇51.38 | 31.5 | 30.7 | 25.8 | 42.7 |
CodeForces-Elo | 🥇1600 | 678 | 605 | 683 | 1520 |
OptMATH | 🥇39.76 | 15.51 | 14.61 | 2.86 | 26.96 |
HealthBench | 46.17 | 43.0 | 36.9 | 30.0 | 56.4 |
FinanceReasoning | 81.59 | 78.5 | 78.1 | 64.3 | 83.8 |
Creative Writing V3 | 🥇85.17 | 77.57 | 82.17 | 59.69 | 79.09 |
Ling-flash-2.0의 효율성이 중요한 이유
Ling-flash-2.0은 Ling 스케일링 법칙을 기반으로 하여 1/32 활성화 비율 MoE 구조를 사용합니다. 단순히 규모 확대를 시도하는 대신, 전문가 세분화와 공유 전문가 비율에서 균형 잡힌 주의, 더 똑똑한 라우팅 전략, 다중 token 예측, QK-노름, 파셜-로프(Partial-RoPE)까지 일련의 설계 개선을 소개합니다.
이 혁신들은 함께 약 40B 조밀한 Model의 힘을 제공하며, 6.1B 활성 매개변수만으로 밀도 있는 구조에 비해 7배의 효율성 향상을 달성합니다.

SiliconFlow에서의 실제 성능
이 데모는 SiliconFlow Playground 내에서 Ling-flash-2.0의 실제 성능을 보여줍니다. 간단한 프롬프트 "Snake 게임을 위한 완전한 코드를 작성하세요"를 사용하여 model은 실시간으로 추론, 코딩 전문성 및 실용적인 문제 해결을 매끄럽게 통합하여 완전한 기능의 구현을 신속하게 생성합니다.

즉시 시작하세요
1. 탐색: Ling-flash-2.0을 SiliconFlow playground에서 시도해보세요.
2. 통합: OpenAI 호환 API를 사용하세요. SiliconFlow API 문서에서 전체 API 사양을 탐색하세요.
지금 SiliconFlow에서 Ling Flash 2.0을 시도하고, 속도의 차이를 느껴보세요.
SiliconFlow의 사용 가능한 모든 Model을 탐색하세요 →

