OpenAI 的 gpt-oss 现已在 SiliconFlow 上线：专为代理工作流程、高级推理和工具使用而设计

2025年8月19日

SiliconFlow 隆重宣布推出gpt-oss-120B和gpt-oss-20B — 现已在我们平台上提供的最先进的开放权重语言模型。基于 MoE 架构，gpt-oss-120B 拥有 1170 亿个参数，每个 token 激活 51 亿个，而 gpt-oss-20B 则拥有 210 亿个参数，每个 token 激活 36 亿个。

gpt-oss 使用受到OpenAI内部高级模型（包括o3）启发的强化学习技术训练，适用于代理工作流，具有卓越的指令跟踪、网页搜索和 Python 代码执行等工具使用以及可配置的推理努力——能够实现复杂推理和较低延迟的输出。

无论您是在构建复杂推理流程、启用复杂的工具使用还是部署大规模 AI 服务，SiliconFlow 上的 gpt-oss 都提供了灵活性和动力以加速创新——得益于我们完全优化的部署和生产就绪的 API 服务支持。

使用 SiliconFlow 的 gpt-oss API，您可以期待：

具成本效益的定价：
- gpt-oss-120b 每百万 tokens（Input）0.09 美元和每百万 tokens（Output）0.45 美元；
- gpt-oss-20b 每百万 tokens（Input）0.04 美元和每百万 tokens（Output）0.18 美元。
扩展上下文窗口：131K 上下文窗口用于复杂任务。

关键功能与基准表现

SiliconFlow 上的 OpenAI 的 gpt-oss 模型提供多功能的能力，适应广泛的 AI 任务：

可配置的推理努力：根据您的具体使用情况和延迟需求轻松调整推理努力（低、中、高）。
完整的链式思维：提供对模型推理过程的完整访问，便于调试并增强对输出的信任。
可微调：通过参数微调完全定制模型以符合您的具体用途。
代理能力：使用模型本身的功能调用、网页浏览、Python 代码执行和结构化 Outputs。

此外，gpt-oss-120b 和 gpt-oss-20b 已通过标准学术基准进行评估，以衡量其在编码、竞赛数学、健康和代理工具使用等方面的能力，该过程与其他OpenAI 推理模型进行比较，包括o3、o3-mini和o4-mini：

gpt-oss-120b 优于 OpenAI o3-mini，并在竞赛编码（Codeforces）、一般问题解决（MMLU 和 HLE）和工具调用（TauBench）方面匹敌或超过 OpenAI o4-mini。在健康相关查询（HealthBench）和竞赛数学（AIME 2024 & 2025）方面表现更佳。
gpt-oss-20b 在这些评估中匹敌或超过 OpenAI o3-mini，尽管其规模较小，但在竞赛数学和健康方面甚至表现更好。

类别	基准	gpt-oss-120B	gpt-oss-20B	OpenAI o3-mini	OpenAI o4-mini
编码	Codeforces	2622	2516	2073 （未使用工具）	2719
工具使用	TauBench	🥇 67.8	54.8	–	65.6
健康	HealthBench	🥇 57.6	42.5	37.8	50.1
推理与事实性	AIME 2024 & 2025	96.6 / 97.9	96 / 98.7	87.3 / 86.5	98.7 / 99.5
	MMLU	90	85.3	87	93
	HLE	🥇 19	17.3	13.4 （未使用工具）	17.7
	GPQA-Diamond	80.1	71.5	77	81.4

凭借这些功能和竞争性的基准表现，gpt-oss 为开发者提供了能力与成本效益的最佳平衡。

gpt-oss 的技术亮点

基于这些功能和基准结果，gpt-oss 的技术基础结合了尖端的架构和先进的训练方法，提供高性能：

高级训练与架构：

使用 OpenAI 最先进的预训练和后训练技术进行训练，强调推理、效率和实际可用性。
基于采用专家混合（MoE）的 Transformer 背骨，gpt-oss-120b 每个 token 激活 51 亿个参数（共 1170 亿），而 gpt-oss-20b 激活 36 亿（共 210 亿）。
采用交替的密集和局部带状稀疏注意力，分组多查询注意力（组大小 8）和旋转位置 Embedding（RoPE），支持上下文长度达 128k tokens。
训练数据侧重于 STEM、编码和通用知识的英语文本，使用开源的o200k_harmony 分词器进行分词。

后训练与推理：

在预训练后，模型经历监督微调和高计算的强化学习阶段以与OpenAIModelSpec对齐。
此过程增强了链式思维（CoT）推理和工具使用能力，支持可配置的推理努力——低、中、高，让开发者可以通过系统提示在延迟和性能之间达到平衡。

立即开始使用

探索：尝试在 SiliconFlow 模型广场中gpt-oss。
集成：使用我们的 OpenAI 兼容 API。在SiliconFlow API 文档中查找完整 API 规格。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())