OpenAI의 GPT-OSS가 이제 SiliconFlow에서 라이브로 제공합니다: 대리인 워크플로우, 고급 추론 및 도구 사용을 위해 설계됨

2025. 8. 19.

SiliconFlow는 gpt-oss-120B 및 gpt-oss-20B — 현재 우리 플랫폼에서 사용할 수 있는 최신 오픈 웨이트 언어 모델의 출시를 발표하게 되어 기쁩니다. MoE 아키텍처를 기반으로 하는 gpt-oss-120B는 1,170억 파라미터를 보유하고 있으며, 토큰당 51억이 활성화되며, gpt-oss-20B는 210억 파라미터를 가지고 있으며 토큰당 36억이 활성화됩니다.

OpenAI의 고급 내부 모델(예: OpenAI 포함)을 영감으로 한 강화 학습 기법으로 훈련된 gpt-oss는 뛰어난 명령어 따르기, 웹 검색 및 Python 코드 실행 같은 툴 사용 및 구성 가능한 추론 노력을 통해 복잡한 추론과 낮은 지연 시간의

을 가능하게 하는 에이전틱 워크플로를 위해 설계되었습니다.

당신이 복잡한 추론 파이프라인을 구축하든, 정교한 툴 사용을 가능하게 하든, 대규모 AI 서비스를 배포하든 간에, SiliconFlow의 gpt-oss는 완전히 최적화된 배포 및 프로덕션 API 서비스를 바탕으로 혁신을 가속화할 수 있는 유연성과 강력함을 제공합니다.

SiliconFlow의 gpt-oss API로 기대할 수 있는 것:

비용 효율적인 가격:
- gpt-oss-120b $0.09/M token (Input) 및 $0.45/M token (Output);
- gpt-oss-20b $0.04/M token (Input) 및 $0.18/M token (Output).
확장된 컨텍스트 창: 복잡한 작업을 위한 131K 컨텍스트 창.

주요 능력 및 벤치마크 성능

OpenAI의 gpt-oss 모델은 다양한 AI 작업에 적용할 수 있는 다재다능한 기능을 제공합니다:

설정 가능한 추론 노력을: 특정 사용 사례 및 지연 시간 요구에 따라 추론 노력 (낮음, 중간, 높음)을 쉽게 조정할 수 있습니다.
전체 사고의 연속성: 모델의 추론 과정을 완전히 볼 수 있어 디버깅이 쉬워지고 출력에 대한 신뢰가 높아집니다.
파인-튜닝 가능함: 파라미터 Fine-tuning을 통해 특정 사용 사례에 맞게 모델을 완전히 맞춤화할 수 있습니다.
에이전틱 역량: 함수 호출, 웹 브라우징, Python 코드 실행 및 구조화된
을 위한 모델의 고유 역량을 활용할 수 있습니다.

또한, gpt-oss-120b 및 gpt-oss-20b는 코딩, 경쟁 수학, 건강 및 에이전틱 툴 사용 능력을 측정하기 위해 다른 표준 학술 벤치마크에서 평가되었습니다. 여기에는 OpenAI 추론 모델, o3, o3-mini, o4-mini 포함됩니다:

gpt-oss-120b는 OpenAI o3-mini를 능가하며 경쟁 코딩 (Codeforces), 일반 문제 해결 (MMLU 및 HLE), 도구 호출 (TauBench)에서 OpenAI o4-mini에 필적하거나 능가합니다. 또한 건강 관련 질의(HealthBench)와 경쟁 수학(AIME 2024 & 2025)에서 o4-mini보다 훨씬 더 잘 수행됩니다.
gpt-oss-20b는 이와 동일한 평가에서 OpenAI o3-mini에 비해 작음에도 불구하고 일치하거나 능가하며, 특히 경쟁 수학과 건강에서 더 우수한 성과를 보입니다.

카테고리	벤치마크	gpt-oss-120B	gpt-oss-20B	OpenAI o3-mini	OpenAI o4-mini
코딩	Codeforces	2622	2516	2073 (도구 없이)	2719
툴 사용	TauBench	🥇 67.8	54.8	–	65.6
건강	HealthBench	🥇 57.6	42.5	37.8	50.1
추론 및 사실성	AIME 2024 & 2025	96.6 / 97.9	96 / 98.7	87.3 / 86.5	98.7 / 99.5
	MMLU	90	85.3	87	93
	HLE	🥇 19	17.3	13.4 (도구 없이)	17.7
	GPQA-Diamond	80.1	71.5	77	81.4

이러한 기능과 경쟁력 있는 벤치마크 성능으로 gpt-oss는 개발자들에게 역량과 비용 효율 간의 최적 균형을 제공합니다.

gpt-oss의 기술 하이라이트

이러한 기능과 벤치마크 결과를 기반으로, 기술적인 기반 은 최고 성능을 제공하기 위해 최첨단 아키텍처와 고급 훈련 방법론을 결합합니다:

고급 교육 및 아키텍처:

OpenAI의 최신 사전 훈련 및 후속 훈련 기술을 사용하여 추론, 효율성 및 현실 세계에서의 사용성을 강조하여 훈련되었습니다.
혼합 전문가 (MoE)를 갖춘 Transformer 백본으로 구축된 gpt-oss-120b는 토큰 당 51억 파라미터 (총 1,170억)를 활성화하며, gpt-oss-20b는 36억 (총 210억)을 활성화합니다.
교대 밀집 및 지역 밴드 스파스 주의, 그룹 다중 쿼리 주의 (그룹 크기 8) 및 문맥 길이 최대 128k token을 지원하는 로터리 위치 겸 도입을 사용합니다.
훈련 데이터는 STEM, 코딩 및 일반 지식에서 영어 에 중점을 두며 오픈 소스 o200k_harmony tokenizer로 토큰화되었습니다.

피훈련 및 추론:

사전 훈련 후, 모델은 OpenAIModelSpec과 정렬되도록 감독되는 Fine-tuning 및 고용 Reinforcement Learning 단계를 거칩니다.
이 과정은 사고의 연속성(CoT) 추론 및 툴 사용 능력을 향상시켜 설계의 추론 노력을 구성할 수 있도록 지원하며 성능 프로프트를 통해 지연 시간과 성능을 균형 있게 유지합니다.

즉각적으로 시작하세요

탐색: SiliconFlow Playground에서 gpt-oss를 시도해보세요.
통합: OpenAI 호환 API를 사용하세요. 전체 API 사양은 SiliconFlow API 문서에서 확인하세요.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())