Ling-mini-2.0 지금 SiliconFlow에서: MoE Model 최고 성능 및 고효율

2025. 9. 11.

목차

린-미니-2.0 이제 SiliconFlow에서 제공
린-미니-2.0 이제 SiliconFlow에서 제공

요약: Ling-mini-2.0는 이제 SiliconFlow에서 사용할 수 있습니다 — Ant Group inclusionAI의 MoE Model로 SOTA 성능과 전례 없는 효율성을 결합합니다. 1.4B 활성화 파라미터로 7-8B 밀도 성능, 300+ token/s의 높은 속도, 경쟁력 있는 코딩 및 수학 기능을 제공합니다. 이제 API 서비스를 통해 기업급 품질을 예산 친화적인 가격으로 얻을 수 있습니다!


SiliconFlow는 Ling-mini-2.0를 소개하게 되어 기쁩니다 — MoE 기반의 혁신적 언어 Model로 효율적 AI 모델이 가능해지는 방법을 새롭게 정의합니다. 총 16B 파라미터지만 토큰당 1.4B만 활성화되어, 이 Model은 훨씬 큰 모델을 능가하거나 맞먹는 성능을 달성하며, sub-10B 밀도 LLM 중에서는 톱 수준의 성능을 제공하고 워크플로우에서 높은 속도와 비용 효율성을 제공합니다.


SiliconFlow의 Ling-mini-2.0 API로 기대할 수 있는 것:


  • 비용 효율적인 가격: Ling-mini-2.0 $0.07/M tokens (Input) 및 $0.29/M tokens (Output).

  • 확장된 컨텍스트 창: 131K으로 복잡한 작업을 처리할 수 있습니다.

  • 탁월한 성능: 코딩 및 수학적 추론 작업에서 우수한 성능을 제공합니다.


복잡한 코딩 도우미, 수학적 추론 응용 프로그램, 또는 범용 AI 기능을 구축할 때, SiliconFlow의 Ling-mini-2.0 API는 예상 비용과 지연의 일부만으로 필요한 성능을 제공합니다.


Ling-mini-2.0이 중요한 이유


대부분의 대형 언어 모델은 근본적인 반대 오류를 겪고 있습니다: 강력한 추론은 대량의 파라미터 수를 요구하며, 이는 지연 및 높은 비용을 초래합니다. 개발자는 고급 추론 기능이 부족한 작고 빠른 모델과 품질을 제공하지만 예산을 소모하고 응용 프로그램 속도를 느리게 만드는 대형 모델 간에서 선택하는 데 어려움을 겪습니다.


Ling-mini-2.0은 이러한 상황을 돌파합니다:


  • 7배에 해당하는 밀도 성능 레버리지

Ling Scaling Laws에 따라, Ling-mini-2.0의 1/32 활성화 비율 MoE 디자인은 관련 전문가만 활성화합니다. 이는 소규모 활성화 MoE 모델이 7배 이상의 밀도 성능을 달성할 수 있게 합니다. 즉, Ling-mini-2.0은 1.4B 활성화 파라미터(비-Embedding 789M) 만으로 7-8B 밀도 모델에 해당하는 성능을 제공할 수 있습니다.


  • 초고속 300+ token/s 생성

매우 희소한 아키텍처는 간단한 QA 시나리오에서 300+ token/s 생성을 가능케 하며, 이는 유사한 8B 밀도 모델보다 2배 이상 빠릅니다. 출력 길이가 늘어남에 따라 상대 속도는 7배 이상 증가하여, 실시간 응용 프로그램에 이상적입니다.


  • 강력한 일반 및 전문 추론

200억 이상의 고품질 tokens로 학습되고 다단계 지도 Fine-tuning과 강화 학습을 통해 강화된 Ling-mini-2.0은 코딩(LiveCodeBench, CodeForces), 수학(AIME 2025, HMMT 2025), 지식 집약적 추론(MMLU-Pro, Humanity's Last Exam)을 포함한 복잡한 추론 작업에서 뛰어난 성능을 발휘합니다.


sub-10B 밀도 모델(예: Qwen3-4B-instruct-2507, Qwen3-8B-NoThinking-2504) 및 대규모 MoE 모델(Ernie-4.5-21B-A3B-PT, GPT-OSS-20B/low)과 비교하여, Ling-mini-2.0은 전체 추론 기능에서 뛰어난 성능을 보여주었습니다:


벤치마크

Ling-Mini-2.0

Qwen3-4B-instruct-2507

Qwen3-8B-NoThinking-2504

Ernie-4.5-21B-A3B-PT

GPT-OSS-20B/low

LiveCodeBench

34.8

31.9

26.1

26.1

46.6

CodeForces

59.5

55.4

28.2

21.7

67.0

AIME 2025

47.0

48.1

23.4

16.1

38.2

HMMT 2025

🥇35.8

29.8

11.5

6.9

21.7

MMLU-Pro

65.1

62.4

52.5

65.6

65.6

Humanity's Last Exam

🥇6.0

4.6

4.0

5.1

4.7



실제 응용 시나리오


아래 SiliconFlow Playground에서 시연된 바와 같이, Ling-mini-2.0의 생성 속도는 단순한 기술적 기준이 아니라 실제 응용 프로그램에서 사용자 경험을 변모시킵니다.


Prompt: Create a complete Snake game in Python using pygame.


번개처럼 빠른 응답, 강력한 코딩 기능, 고급 수학적 추론 기능으로 Ling-mini-2.0은 속도와 지능이 중요한 산업에서 새로운 가능성을 열어줍니다:


  • 실시간 코딩 도우미

    • 개발 중 실시간 코드 완성

    • 워크플로 중단 없이 즉각적인 디버깅 제안

    • 즉각적인 피드백을 제공하는 상호작용 코드 리뷰

    • 완벽한 사용처: IDE, 코드 에디터, 페어 프로그래밍 도구


  • 상호작용 교육 플랫폼

    • 즉각적인 설명을 제공하는 단계별 수학 지도

    • 프로그래밍 부트캠프를 위한 실시간 질의응답

    • 지연을 야기하지 않는 상호작용 문제 해결

    • 완벽한 사용처: 교육 기술 플랫폼, 온라인 코스, 학습 앱


  • 고객 지원 및 채팅봇

    • 자연스럽고 대화 같은 즉각적 응답

    • 속도를 타협하지 않는 복잡한 질의 처리

    • 효율적으로 문맥을 유지하는 다중 턴 대화

    • 완벽한 사용처: 고객 서비스, 기술 지원, 엔터프라이즈 채팅봇


즉시 시작하기


  1. 1. 탐색: Ling-mini-2.0SiliconFlow Playground에서 사용해보세요.

  2. 2. 통합: 우리의 OpenAI 호환 API를 사용하세요. SiliconFlow API 문서에서 전체 API 사양을 확인하세요.


import requestsurl = "https://api.siliconflow.com/v1/chat/completions"payload = {    "model": "inclusionAI/Ling-mini-2.0",    "thinking_budget": 4096,    "top_p": 0.7,    "messages": [        {            "content": "Tell me a story",            "role": "user"        }    ]}headers = {    "Authorization": "Bearer <token>",    "Content-Type": "application/json"}response = requests.post(url, json=payload, headers=headers)print(response.json())


Ling-mini-2.0의 속도와 지능을 경험할 준비가 되셨나요?

오늘 당장 우리의 API를 사용하여 효율적인 AI의 차이를 확인해 보세요.


비즈니스 또는 판매 문의 →

지금 바로 Discord 커뮤니티에 가입하세요 →

최신 업데이트를 위해 X에서 팔로우하세요 →

SiliconFlow에서 사용 가능한 모든 모델 탐색 →

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow