OpenAI 的 gpt-oss 现已在 SiliconFlow 上线:专为代理工作流程、高级推理和工具使用而设计

2025年8月19日

目录

penAI 的 gpt-oss 现已在 SiliconFlow 上线

SiliconFlow 隆重宣布推出gpt-oss-120Bgpt-oss-20B — 现已在我们平台上提供的最先进的开放权重语言模型。基于 MoE 架构,gpt-oss-120B 拥有 1170 亿个参数,每个 token 激活 51 亿个,而 gpt-oss-20B 则拥有 210 亿个参数,每个 token 激活 36 亿个。

gpt-oss 使用受到OpenAI内部高级模型(包括o3)启发的强化学习技术训练,适用于代理工作流,具有卓越的指令跟踪、网页搜索和 Python 代码执行等工具使用以及可配置的推理努力——能够实现复杂推理和较低延迟的输出。

无论您是在构建复杂推理流程、启用复杂的工具使用还是部署大规模 AI 服务,SiliconFlow 上的 gpt-oss 都提供了灵活性和动力以加速创新——得益于我们完全优化的部署和生产就绪的 API 服务支持。

使用 SiliconFlow 的 gpt-oss API,您可以期待:

  • 具成本效益的定价:

    • gpt-oss-120b 每百万 tokens(Input)0.09 美元和每百万 tokens(Output)0.45 美元;

    • gpt-oss-20b 每百万 tokens(Input)0.04 美元和每百万 tokens(Output)0.18 美元。

  • 扩展上下文窗口:131K 上下文窗口用于复杂任务。

关键功能与基准表现

SiliconFlow 上的 OpenAI 的 gpt-oss 模型提供多功能的能力,适应广泛的 AI 任务:

  • 可配置的推理努力:根据您的具体使用情况和延迟需求轻松调整推理努力(低、中、高)。

  • 完整的链式思维:提供对模型推理过程的完整访问,便于调试并增强对输出的信任。

  • 可微调:通过参数微调完全定制模型以符合您的具体用途。

  • 代理能力:使用模型本身的功能调用、网页浏览Python 代码执行和结构化 Outputs。

此外,gpt-oss-120b 和 gpt-oss-20b 已通过标准学术基准进行评估,以衡量其在编码、竞赛数学、健康和代理工具使用等方面的能力,该过程与其他OpenAI 推理模型进行比较,包括o3o3-minio4-mini

  • gpt-oss-120b 优于 OpenAI o3-mini,并在竞赛编码(Codeforces)、一般问题解决(MMLUHLE)和工具调用(TauBench)方面匹敌或超过 OpenAI o4-mini。在健康相关查询(HealthBench)和竞赛数学(AIME 2024 & 2025)方面表现更佳。

  • gpt-oss-20b 在这些评估中匹敌或超过 OpenAI o3-mini,尽管其规模较小,但在竞赛数学和健康方面甚至表现更好。

类别

基准

gpt-oss-120B

gpt-oss-20B

OpenAI o3-mini

OpenAI o4-mini

编码

Codeforces

2622

2516

2073 (未使用工具)

2719

工具使用

TauBench

🥇 67.8

54.8

65.6

健康

HealthBench

🥇 57.6

42.5

37.8

50.1

推理与事实性

AIME 2024 & 2025

96.6 / 97.9

96 / 98.7

87.3 / 86.5

98.7 / 99.5

MMLU

90

85.3

87

93

HLE

🥇 19

17.3

13.4 (未使用工具)

17.7

GPQA-Diamond

80.1

71.5

77

81.4


凭借这些功能和竞争性的基准表现,gpt-oss 为开发者提供了能力与成本效益的最佳平衡。

gpt-oss 的技术亮点

基于这些功能和基准结果,gpt-oss 的技术基础结合了尖端的架构和先进的训练方法,提供高性能:

高级训练与架构:

  • 使用 OpenAI 最先进的预训练和后训练技术进行训练,强调推理、效率和实际可用性。

  • 基于采用专家混合(MoE)的 Transformer 背骨,gpt-oss-120b 每个 token 激活 51 亿个参数(共 1170 亿),而 gpt-oss-20b 激活 36 亿(共 210 亿)。

  • 采用交替的密集和局部带状稀疏注意力,分组多查询注意力(组大小 8)和旋转位置 Embedding(RoPE),支持上下文长度达 128k tokens。

  • 训练数据侧重于 STEM、编码和通用知识的英语文本,使用开源的o200k_harmony 分词器进行分词。

后训练与推理:

  • 在预训练后,模型经历监督微调和高计算的强化学习阶段以与OpenAIModelSpec对齐。

  • 此过程增强了链式思维(CoT)推理和工具使用能力,支持可配置的推理努力——低、中、高,让开发者可以通过系统提示在延迟和性能之间达到平衡。

立即开始使用

  1. 探索:尝试在 SiliconFlow 模型广场中gpt-oss

  2. 集成:使用我们的 OpenAI 兼容 API。在SiliconFlow API 文档中查找完整 API 规格。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())
import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())
import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

今天就通过 SiliconFlow 的高性能 API 开始构建 gpt-oss!

准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?