Ling-flash-2.0 SiliconFlow에서 지금 사용 가능: 플래그십 MoE Model, SOTA 추론과 높은 효율성 제공

2025. 9. 23.

목차

Ling-flash-2.0 이제 SiliconFlow에서 사용 가능
Ling-flash-2.0 이제 SiliconFlow에서 사용 가능

요약: Ling-flash-2.0는 이제 SiliconFlow에서 사용할 수 있습니다 — Ant Group inclusionAI의 주력 MoE 언어 Model로, 최첨단 추론과 고급 효율성을 결합합니다. 100B 총 매개변수 중 6.1B만 활성화되어 있으며, 40B 조밀한 Model과 경쟁할 수 있는 성능을 제공하고 131K 컨텍스트 창을 제공합니다. 복잡한 추론, 코딩, 프론트엔드 개발에 완벽하며, 이제 예산 친화적인 비용을 통해 API 서비스를 통해 비즈니스와 워크플로우를 강화하세요.


SiliconFlow는 Ling-flash-2.0를 제공하게 되어 기쁘게 생각합니다, Ling 2.0 구조 하의 세 번째 MoE Model입니다. Ling-mini-2.0Ring-mini-2.0의 성공을 기반으로, 이 출시 버전은 효율성과 추론 능력을 결합하는 데 있어 한 걸음 더 나아갔음을 반영합니다. 20T 이상의 고품질 tokens으로 학습하여 다단계 지도 Fine-tuning과 강화 학습을 통해 Ling-flash-2.0은 고급 MoE 설계를 실제 세계 범용성으로 결합하여 복잡한 추론, 코딩 및 산업 특화 애플리케이션에 강력한 선택지가 됩니다.


SiliconFlow의 Ling-flash-2.0 API를 통해 기대할 수 있습니다:


  • 경제적인 가격: Ling-flash-2.0 tokens(입력)당 $0.14/M 및 tokens(출력)당 $0.57/M.

  • 효율적인 MoE 설계: MoE 구조는 100B 총 매개변수 중 6.1B만 활성화(4.8B 비-Embedding)되어 있습니다.

  • 확장된 컨텍스트 창: 131K 컨텍스트 창은 사용자가 복잡한 작업을 처리할 수 있게 합니다.

  • 고급 기능: 추론, 코드, 수학 및 금융 & 헬스케어와 같은 도메인 작업에서 최첨단 기술을 자랑합니다.


Ling-flash-2.0의 중요성


Ling-flash-2.0은 지식 집약적, 수학적, 코딩, 논리 및 도메인 특정 작업, 예를 들어 금융 및 헬스케어에서 지속적으로 강력한 성능을 제공합니다. 또한 창의적인 글쓰기와 같은 보다 열린 응용 분야에서도 높은 경쟁력을 입증합니다.


중요한 것은 Ling-flash-2.0이 Qwen3-32B-Non-Thinking Seed-OSS-36B (생각 예산=0)과 같은 40B 매개변수 이하의 조밀한 Model들을 능가할 뿐만 아니라, Hunyuan-80B-A13B-Instruct GPT-OSS-120B (낮음)과 같은 큰 MoE 동료들과도 경쟁력을 유지하며 명확한 비용과 효율성 이점을 유지합니다.


벤치마크

Ling-flash-2.0

Qwen3-32B-Non-Thinking

Seed-OSS-36B-Instruct (생각 예산=0)

Hunyuan-80B-A13B-Instruct

GPT-OSS-120B (낮음)

GPQA-Diamond

🥇68.1

56.2

52.0

61.8

63.4

MMLU-PRO

🥇77.1

69.2

73.2

65.0

74.1

AIME 2025

🥇56.6

23.1

15.0

22.6

51.9

Omni-MATH

🥇53.4

33.8

29.7

39.4

42.3

KOR-Bench

68.8

57.0

44.2

47.6

73.1

ARC-Prize

🥇24.6

3.3

4.4

0.1

10.7

LiveCodeBench v6

🥇51.38

31.5

30.7

25.8

42.7

CodeForces-Elo

🥇1600

678

605

683

1520

OptMATH

🥇39.76

15.51

14.61

2.86

26.96

HealthBench

46.17

43.0

36.9

30.0

56.4

FinanceReasoning

81.59

78.5

78.1

64.3

83.8

Creative Writing V3

🥇85.17

77.57

82.17

59.69

79.09


Ling-flash-2.0의 효율성이 중요한 이유


Ling-flash-2.0은 Ling 스케일링 법칙을 기반으로 하여 1/32 활성화 비율 MoE 구조를 사용합니다. 단순히 규모 확대를 시도하는 대신, 전문가 세분화와 공유 전문가 비율에서 균형 잡힌 주의, 더 똑똑한 라우팅 전략, 다중 token 예측, QK-노름, 파셜-로프(Partial-RoPE)까지 일련의 설계 개선을 소개합니다.


이 혁신들은 함께 약 40B 조밀한 Model의 힘을 제공하며, 6.1B 활성 매개변수만으로 밀도 있는 구조에 비해 7배의 효율성 향상을 달성합니다.


Image


SiliconFlow에서의 실제 성능


이 데모는 SiliconFlow Playground 내에서 Ling-flash-2.0의 실제 성능을 보여줍니다. 간단한 프롬프트 "Snake 게임을 위한 완전한 코드를 작성하세요"를 사용하여 model은 실시간으로 추론, 코딩 전문성 및 실용적인 문제 해결을 매끄럽게 통합하여 완전한 기능의 구현을 신속하게 생성합니다.


Image


즉시 시작하세요


  1. 1. 탐색: Ling-flash-2.0SiliconFlow playground에서 시도해보세요.

  2. 2. 통합: OpenAI 호환 API를 사용하세요. SiliconFlow API 문서에서 전체 API 사양을 탐색하세요.


import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "thinking_budget": 4096,    "top_p": 0.7,    "model": "inclusionAI/Ling-flash-2.0",    "messages": [        {            "content": "I have 4 apples. I give 2 to my friend. How many apples do we have now?",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())


지금 SiliconFlow에서 Ling Flash 2.0을 시도하고, 속도의 차이를 느껴보세요.


비즈니스 문의 또는 판매 문의 →

지금 우리의 Discord 커뮤니티에 참여하세요 →

최신 업데이트를 위해 X에서 팔로우하세요 →

SiliconFlow의 사용 가능한 모든 Model을 탐색하세요 →



AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow