Seed-OSS-36B-Instruct 지금 SiliconFlow에서 사용 가능: 주문형으로 생각하는 더 똑똑한 AI

2025. 9. 5.

요약: 오늘 SiliconFlow에서 ByteDance의 Seed-OSS-36B-Instruct을 시도하세요 - 제어 가능한 사고 예산을 통해 더 스마트한 추론을 얻고, 저렴한 가격에 고품질의 결과를 제공하며, 원활한 배치 및 확장을 위한 생산 준비 API를 제공합니다.

SiliconFlow는 ByteDance의 혁신적인 오픈 소스 Model인 Seed-OSS-36B-Instruct을 Model 카탈로그에 제공합니다. 이 Model은 AI 추론을 사용자가 제어할 수 있게 해줍니다. 유연한 사고 예산을 통해 사용자는 각 작업에 대한 추론 깊이를 정확하게 조정할 수 있으며, 향상된 추론 능력과 에이전틱 지능으로 뛰어난 문제 해결 성능을 발휘합니다.

SiliconFlow의 Seed-OSS-36B-Instruct API와 함께 할 수 있는 기대:

경쟁력 있는 가격: Seed-OSS-36B-Instruct $0.21/M tokens (Input) 및 $0.57/M tokens (Output).
262k 컨텍스트 윈도우 지원: 복잡한 작업을 매끄럽게 처리할 수 있도록 사용자에게 지원합니다.

Seed-OSS의 중요성

대부분의 오픈 소스 Model들은 종종 블랙 박스처럼 느껴집니다: AI의 사고량을 제어할 수 없으며, 긴 문서는 빨리 컨텍스트 한계에 도달하고, 비용은 작업의 복잡도에 따라 예측할 수 없이 증가합니다. Seed-OSS-36B-Instruct는 이를 변화시킵니다:

생각 예산의 유연한 제어: 사용자는 작업의 복잡성에 맞춰 추론 길이를 유연하게 조정하여 정확성, 효율성, 비용을 균형 있게 조정할 수 있습니다. 512 tokens의 배수로 예산을 설정하여 (즉각적인 직접 응답을 위한 0), 개발자가 다양한 배포 시나리오에서 성능을 제어할 수 있으며 특히 고객 지원이나 자율 에이전트와 같은 애플리케이션에 적합합니다.
네이티브 긴 컨텍스트: 다른 Model처럼 재구성되지 않고, Seed-OSS는 최대 512K 길이의 컨텍스트를 네이티브로 학습합니다. 즉, 대용량 입력에도 안정적이고 일관된 성능을 제공합니다.
고급 추론 및 에이전틱 지능: 복잡한 추론 작업을 위해 최적화되었으며, 도구 사용, 다단계 문제 해결 및 문제 해결 같은 에이전틱 워크플로우에서 뛰어난 성능으로 균형 잡힌 일반적인 기능을 유지합니다.

게다가, Seed-OSS-36B-Instruct는 자신의 클래스 내 최상위 수준의 오픈 소스 Model의 성능을 맞추거나 초과하여, 수학, 코딩, 추론, 에이전트 작업 및 장기 컨텍스트 처리 작업에 걸쳐 있습니다. Qwen3-30B-A3B-Thinking-2507, Qwen3-32B, 및 OAI-OSS-20B를 포함하여, 이 Model의 성능을 보여줍니다.

벤치마크	Seed-OSS-36B-Instruct	Qwen3-30B-A3B-Thinking-2507	Qwen3-32B	OAI-OSS-20B	Gemma3-27B
지식
MMLU-Pro	🥇82.7	81.9	81.8	76.2	67.5
MMLU	🥇87.4	86.9	86.2	81.7	76.9
GPQA-D	71.4	71.4	66.7	72.2	42.4
수학
AIME24	91.7	87.7	82.7	92.7
AIME25	84.7	81.3	73.3	90.3
추론
HLE	10.1	8.7	6.9	12.7
코딩
LiveCodeBench v6	🥇67.4	60.3	53.4	63.8
에이전트
TAU1-리테일	🥇70.4	58.7	40.9	54.8
SWE-Bench Verified	🥇47	39.7	23.4	60.7
긴 컨텍스트
RULER (128K)	🥇94.6	94.5	77.5	78.7

실제 응용 시나리오

생각 예산이 실제로 어떻게 작동합니까? 생각 예산을 설정하면, Model이 완전한 투명성을 가지고 운영됩니다. 이 예는 512로 설정된 생각 예산과 함께, 추론 과정에서 Model이 소비된 예산과 남은 예산을 추산하기 위해 주기적으로 자기 점검을 출발시키고, 예산이 소진되거나 추론이 완료되면 최종 응답을 전달하는 예입니다.

<seed:think>
Got it, let's try to solve this problem step by step. The problem says ... ...
<seed:cot_budget_reflect>I have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>
Using the power rule, ... ...
<seed:cot_budget_reflect>I have used 258 tokens, and there are 254 tokens remaining for use.</seed:cot_budget_reflect>
Alternatively, remember that ... ...
<seed:cot_budget_reflect>I have used 393 tokens, and there are 119 tokens remaining for use.</seed:cot_budget_reflect>
Because if ... ...
<seed:cot_budget_reflect>I have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect>
</seed:think>
To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted)

이 제어 가능한 추론은 고급 에이전틱 기능과 결합되어 강력한 사용 사례를 엽니다:

적응형 고객 지원:
질문 복잡성에 따라 AI 추론을 조정하세요: FAQ에 대한 즉각적인 응답, 기술적 문제에 대한 심층 분석. 간단하고 복잡한 고객 상호 작용 전반에 걸쳐 비용을 통제하면서 서비스 품질을 유지합니다.
기업 문서 인텔리전스:
컴플라이언스 매뉴얼, 계약 번들 또는 규제 프레임워크와 같은 긴 문서에서 정보 추출 및 분석을 지원합니다. 컨텍스트 연결을 보존하면서 관련된 여러 문서에서 작업합니다.
스마트 개발 워크플로우:
0의 생각 예산으로 빠른 문법 검사, 전체 추론 권한으로 종합 아키텍처 검토. 격리된 코드 조각이 아닌 단일 세션에서 전체 코드베이스를 처리합니다.
글로벌 운영:
본국어로 된 다국어 기능을 통해 국제 시장 전반에 걸쳐 일관된 AI 지원을 배포합니다. 통합된 워크플로우 내에서 관할권 간 연구, 문화 적응 통찰력 및 지역 시장 분석을 지원합니다.

고객 지원 효율성을 최적화하든, 방대한 문서 라이브러리를 처리하든, 개발 워크플로우를 간소화하든, 글로벌 운영을 확장하든, 이 Model은 특정 요구에 맞춰 투명성과 비용 예측 가능성을 유지합니다.

즉시 시작하세요

탐색: Seed-OSS-36B-Instruct를 SiliconFlow Playground에서 사용해 보세요.
통합: OpenAI 호환 API를 사용하세요. 전체 API 사양은 SiliconFlow API Documentation에서 확인하세요.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "ByteDance-Seed/Seed-OSS-36B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)