Ling-flash-2.0 SiliconFlow에서 지금 사용 가능: 플래그십 MoE Model, SOTA 추론과 높은 효율성 제공

2025. 9. 23.

요약: Ling-flash-2.0는 이제 SiliconFlow에서 사용할 수 있습니다 — Ant Group inclusionAI의 주력 MoE 언어 Model로, 최첨단 추론과 고급 효율성을 결합합니다. 100B 총 매개변수 중 6.1B만 활성화되어 있으며, 40B 조밀한 Model과 경쟁할 수 있는 성능을 제공하고 131K 컨텍스트 창을 제공합니다. 복잡한 추론, 코딩, 프론트엔드 개발에 완벽하며, 이제 예산 친화적인 비용을 통해 API 서비스를 통해 비즈니스와 워크플로우를 강화하세요.

SiliconFlow는 Ling-flash-2.0를 제공하게 되어 기쁘게 생각합니다, Ling 2.0 구조 하의 세 번째 MoE Model입니다. Ling-mini-2.0와 Ring-mini-2.0의 성공을 기반으로, 이 출시 버전은 효율성과 추론 능력을 결합하는 데 있어 한 걸음 더 나아갔음을 반영합니다. 20T 이상의 고품질 tokens으로 학습하여 다단계 지도 Fine-tuning과 강화 학습을 통해 Ling-flash-2.0은 고급 MoE 설계를 실제 세계 범용성으로 결합하여 복잡한 추론, 코딩 및 산업 특화 애플리케이션에 강력한 선택지가 됩니다.

SiliconFlow의 Ling-flash-2.0 API를 통해 기대할 수 있습니다:

경제적인 가격: Ling-flash-2.0 tokens(입력)당 $0.14/M 및 tokens(출력)당 $0.57/M.
효율적인 MoE 설계: MoE 구조는 100B 총 매개변수 중 6.1B만 활성화(4.8B 비-Embedding)되어 있습니다.
확장된 컨텍스트 창: 131K 컨텍스트 창은 사용자가 복잡한 작업을 처리할 수 있게 합니다.
고급 기능: 추론, 코드, 수학 및 금융 & 헬스케어와 같은 도메인 작업에서 최첨단 기술을 자랑합니다.

Ling-flash-2.0의 중요성

Ling-flash-2.0은 지식 집약적, 수학적, 코딩, 논리 및 도메인 특정 작업, 예를 들어 금융 및 헬스케어에서 지속적으로 강력한 성능을 제공합니다. 또한 창의적인 글쓰기와 같은 보다 열린 응용 분야에서도 높은 경쟁력을 입증합니다.

중요한 것은 Ling-flash-2.0이 Qwen3-32B-Non-Thinking 와 Seed-OSS-36B (생각 예산=0)과 같은 40B 매개변수 이하의 조밀한 Model들을 능가할 뿐만 아니라, Hunyuan-80B-A13B-Instruct 와 GPT-OSS-120B (낮음)과 같은 큰 MoE 동료들과도 경쟁력을 유지하며 명확한 비용과 효율성 이점을 유지합니다.

벤치마크	Ling-flash-2.0	Qwen3-32B-Non-Thinking	Seed-OSS-36B-Instruct (생각 예산=0)	Hunyuan-80B-A13B-Instruct	GPT-OSS-120B (낮음)
GPQA-Diamond	🥇68.1	56.2	52.0	61.8	63.4
MMLU-PRO	🥇77.1	69.2	73.2	65.0	74.1
AIME 2025	🥇56.6	23.1	15.0	22.6	51.9
Omni-MATH	🥇53.4	33.8	29.7	39.4	42.3
KOR-Bench	68.8	57.0	44.2	47.6	73.1
ARC-Prize	🥇24.6	3.3	4.4	0.1	10.7
LiveCodeBench v6	🥇51.38	31.5	30.7	25.8	42.7
CodeForces-Elo	🥇1600	678	605	683	1520
OptMATH	🥇39.76	15.51	14.61	2.86	26.96
HealthBench	46.17	43.0	36.9	30.0	56.4
FinanceReasoning	81.59	78.5	78.1	64.3	83.8
Creative Writing V3	🥇85.17	77.57	82.17	59.69	79.09

Ling-flash-2.0의 효율성이 중요한 이유

Ling-flash-2.0은 Ling 스케일링 법칙을 기반으로 하여 1/32 활성화 비율 MoE 구조를 사용합니다. 단순히 규모 확대를 시도하는 대신, 전문가 세분화와 공유 전문가 비율에서 균형 잡힌 주의, 더 똑똑한 라우팅 전략, 다중 token 예측, QK-노름, 파셜-로프(Partial-RoPE)까지 일련의 설계 개선을 소개합니다.

이 혁신들은 함께 약 40B 조밀한 Model의 힘을 제공하며, 6.1B 활성 매개변수만으로 밀도 있는 구조에 비해 7배의 효율성 향상을 달성합니다.

SiliconFlow에서의 실제 성능

이 데모는 SiliconFlow Playground 내에서 Ling-flash-2.0의 실제 성능을 보여줍니다. 간단한 프롬프트 "Snake 게임을 위한 완전한 코드를 작성하세요"를 사용하여 model은 실시간으로 추론, 코딩 전문성 및 실용적인 문제 해결을 매끄럽게 통합하여 완전한 기능의 구현을 신속하게 생성합니다.

즉시 시작하세요

1. 탐색: Ling-flash-2.0을 SiliconFlow playground에서 시도해보세요.
2. 통합: OpenAI 호환 API를 사용하세요. SiliconFlow API 문서에서 전체 API 사양을 탐색하세요.

import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())

지금 SiliconFlow에서 Ling Flash 2.0을 시도하고, 속도의 차이를 느껴보세요.

비즈니스 문의 또는 판매 문의 →

지금 우리의 Discord 커뮤니티에 참여하세요 →

최신 업데이트를 위해 X에서 팔로우하세요 →

SiliconFlow의 사용 가능한 모든 Model을 탐색하세요 →