OpenAI의 GPT-OSS가 이제 SiliconFlow에서 라이브로 제공합니다: 대리인 워크플로우, 고급 추론 및 도구 사용을 위해 설계됨

2025. 8. 19.

목차

펜AI의 gpt-oss 이제 SiliconFlow에서 실시간으로
펜AI의 gpt-oss 이제 SiliconFlow에서 실시간으로

SiliconFlow는 gpt-oss-120Bgpt-oss-20B — 현재 우리 플랫폼에서 사용할 수 있는 최신 오픈 웨이트 언어 모델의 출시를 발표하게 되어 기쁩니다. MoE 아키텍처를 기반으로 하는 gpt-oss-120B는 1,170억 파라미터를 보유하고 있으며, 토큰당 51억이 활성화되며, gpt-oss-20B는 210억 파라미터를 가지고 있으며 토큰당 36억이 활성화됩니다.

OpenAI의 고급 내부 모델(예: OpenAI 포함)을 영감으로 한 강화 학습 기법으로 훈련된 gpt-oss는 뛰어난 명령어 따르기, 웹 검색 및 Python 코드 실행 같은 툴 사용 및 구성 가능한 추론 노력을 통해 복잡한 추론과 낮은 지연 시간의

을 가능하게 하는 에이전틱 워크플로를 위해 설계되었습니다.

당신이 복잡한 추론 파이프라인을 구축하든, 정교한 툴 사용을 가능하게 하든, 대규모 AI 서비스를 배포하든 간에, SiliconFlow의 gpt-oss는 완전히 최적화된 배포 및 프로덕션 API 서비스를 바탕으로 혁신을 가속화할 수 있는 유연성과 강력함을 제공합니다.

SiliconFlow의 gpt-oss API로 기대할 수 있는 것:

  • 비용 효율적인 가격:

    • gpt-oss-120b $0.09/M token (Input) 및 $0.45/M token (Output);

    • gpt-oss-20b $0.04/M token (Input) 및 $0.18/M token (Output).

  • 확장된 컨텍스트 창: 복잡한 작업을 위한 131K 컨텍스트 창.

주요 능력 및 벤치마크 성능

OpenAI의 gpt-oss 모델은 다양한 AI 작업에 적용할 수 있는 다재다능한 기능을 제공합니다:

  • 설정 가능한 추론 노력을: 특정 사용 사례 및 지연 시간 요구에 따라 추론 노력 (낮음, 중간, 높음)을 쉽게 조정할 수 있습니다.

  • 전체 사고의 연속성: 모델의 추론 과정을 완전히 볼 수 있어 디버깅이 쉬워지고 출력에 대한 신뢰가 높아집니다.

  • 파인-튜닝 가능함: 파라미터 Fine-tuning을 통해 특정 사용 사례에 맞게 모델을 완전히 맞춤화할 수 있습니다.

  • 에이전틱 역량: 함수 호출, 웹 브라우징, Python 코드 실행 및 구조화된

    을 위한 모델의 고유 역량을 활용할 수 있습니다.

또한, gpt-oss-120b 및 gpt-oss-20b는 코딩, 경쟁 수학, 건강 및 에이전틱 툴 사용 능력을 측정하기 위해 다른 표준 학술 벤치마크에서 평가되었습니다. 여기에는 OpenAI 추론 모델, o3, o3-mini, o4-mini 포함됩니다:

  • gpt-oss-120b는 OpenAI o3-mini를 능가하며 경쟁 코딩 (Codeforces), 일반 문제 해결 (MMLUHLE), 도구 호출 (TauBench)에서 OpenAI o4-mini에 필적하거나 능가합니다. 또한 건강 관련 질의(HealthBench)와 경쟁 수학(AIME 2024 & 2025)에서 o4-mini보다 훨씬 더 잘 수행됩니다.

  • gpt-oss-20b는 이와 동일한 평가에서 OpenAI o3-mini에 비해 작음에도 불구하고 일치하거나 능가하며, 특히 경쟁 수학과 건강에서 더 우수한 성과를 보입니다.

카테고리

벤치마크

gpt-oss-120B

gpt-oss-20B

OpenAI o3-mini

OpenAI o4-mini

코딩

Codeforces

2622

2516

2073 (도구 없이)

2719

툴 사용

TauBench

🥇 67.8

54.8

65.6

건강

HealthBench

🥇 57.6

42.5

37.8

50.1

추론 및 사실성

AIME 2024 & 2025

96.6 / 97.9

96 / 98.7

87.3 / 86.5

98.7 / 99.5

MMLU

90

85.3

87

93

HLE

🥇 19

17.3

13.4 (도구 없이)

17.7

GPQA-Diamond

80.1

71.5

77

81.4


이러한 기능과 경쟁력 있는 벤치마크 성능으로 gpt-oss는 개발자들에게 역량과 비용 효율 간의 최적 균형을 제공합니다.

gpt-oss의 기술 하이라이트

이러한 기능과 벤치마크 결과를 기반으로, 기술적인 기반 은 최고 성능을 제공하기 위해 최첨단 아키텍처와 고급 훈련 방법론을 결합합니다:

고급 교육 및 아키텍처:

  • OpenAI의 최신 사전 훈련 및 후속 훈련 기술을 사용하여 추론, 효율성 및 현실 세계에서의 사용성을 강조하여 훈련되었습니다.

  • 혼합 전문가 (MoE)를 갖춘 Transformer 백본으로 구축된 gpt-oss-120b는 토큰 당 51억 파라미터 (총 1,170억)를 활성화하며, gpt-oss-20b는 36억 (총 210억)을 활성화합니다.

  • 교대 밀집 및 지역 밴드 스파스 주의, 그룹 다중 쿼리 주의 (그룹 크기 8) 및 문맥 길이 최대 128k token을 지원하는 로터리 위치 겸 도입을 사용합니다.

  • 훈련 데이터는 STEM, 코딩 및 일반 지식에서 영어 에 중점을 두며 오픈 소스 o200k_harmony tokenizer로 토큰화되었습니다.

피훈련 및 추론:

  • 사전 훈련 후, 모델은 OpenAIModelSpec과 정렬되도록 감독되는 Fine-tuning 및 고용 Reinforcement Learning 단계를 거칩니다.

  • 이 과정은 사고의 연속성(CoT) 추론 및 툴 사용 능력을 향상시켜 설계의 추론 노력을 구성할 수 있도록 지원하며 성능 프로프트를 통해 지연 시간과 성능을 균형 있게 유지합니다.

즉각적으로 시작하세요

  1. 탐색: SiliconFlow Playground에서 gpt-oss를 시도해보세요.

  2. 통합: OpenAI 호환 API를 사용하세요. 전체 API 사양은 SiliconFlow API 문서에서 확인하세요.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

오늘 SiliconFlow의 고성능 API를 통해 gpt-oss로 시작하세요!

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow