目录

SiliconFlow 隆重宣布推出gpt-oss-120B和gpt-oss-20B — 现已在我们平台上提供的最先进的开放权重语言模型。基于 MoE 架构,gpt-oss-120B 拥有 1170 亿个参数,每个 token 激活 51 亿个,而 gpt-oss-20B 则拥有 210 亿个参数,每个 token 激活 36 亿个。
gpt-oss 使用受到OpenAI内部高级模型(包括o3)启发的强化学习技术训练,适用于代理工作流,具有卓越的指令跟踪、网页搜索和 Python 代码执行等工具使用以及可配置的推理努力——能够实现复杂推理和较低延迟的输出。
无论您是在构建复杂推理流程、启用复杂的工具使用还是部署大规模 AI 服务,SiliconFlow 上的 gpt-oss 都提供了灵活性和动力以加速创新——得益于我们完全优化的部署和生产就绪的 API 服务支持。
使用 SiliconFlow 的 gpt-oss API,您可以期待:
具成本效益的定价:
gpt-oss-120b 每百万 tokens(Input)0.09 美元和每百万 tokens(Output)0.45 美元;
gpt-oss-20b 每百万 tokens(Input)0.04 美元和每百万 tokens(Output)0.18 美元。
扩展上下文窗口:131K 上下文窗口用于复杂任务。
关键功能与基准表现
SiliconFlow 上的 OpenAI 的 gpt-oss 模型提供多功能的能力,适应广泛的 AI 任务:
可配置的推理努力:根据您的具体使用情况和延迟需求轻松调整推理努力(低、中、高)。
完整的链式思维:提供对模型推理过程的完整访问,便于调试并增强对输出的信任。
可微调:通过参数微调完全定制模型以符合您的具体用途。
代理能力:使用模型本身的功能调用、网页浏览、Python 代码执行和结构化 Outputs。
此外,gpt-oss-120b 和 gpt-oss-20b 已通过标准学术基准进行评估,以衡量其在编码、竞赛数学、健康和代理工具使用等方面的能力,该过程与其他OpenAI 推理模型进行比较,包括o3、o3-mini和o4-mini:
gpt-oss-120b 优于 OpenAI o3-mini,并在竞赛编码(Codeforces)、一般问题解决(MMLU 和 HLE)和工具调用(TauBench)方面匹敌或超过 OpenAI o4-mini。在健康相关查询(HealthBench)和竞赛数学(AIME 2024 & 2025)方面表现更佳。
gpt-oss-20b 在这些评估中匹敌或超过 OpenAI o3-mini,尽管其规模较小,但在竞赛数学和健康方面甚至表现更好。
类别 | 基准 | gpt-oss-120B | gpt-oss-20B | OpenAI o3-mini | OpenAI o4-mini |
|---|---|---|---|---|---|
编码 | Codeforces | 2622 | 2516 | 2073 (未使用工具) | 2719 |
工具使用 | TauBench | 🥇 67.8 | 54.8 | – | 65.6 |
健康 | HealthBench | 🥇 57.6 | 42.5 | 37.8 | 50.1 |
推理与事实性 | AIME 2024 & 2025 | 96.6 / 97.9 | 96 / 98.7 | 87.3 / 86.5 | 98.7 / 99.5 |
MMLU | 90 | 85.3 | 87 | 93 | |
HLE | 🥇 19 | 17.3 | 13.4 (未使用工具) | 17.7 | |
GPQA-Diamond | 80.1 | 71.5 | 77 | 81.4 |
凭借这些功能和竞争性的基准表现,gpt-oss 为开发者提供了能力与成本效益的最佳平衡。
gpt-oss 的技术亮点
基于这些功能和基准结果,gpt-oss 的技术基础结合了尖端的架构和先进的训练方法,提供高性能:
高级训练与架构:
使用 OpenAI 最先进的预训练和后训练技术进行训练,强调推理、效率和实际可用性。
基于采用专家混合(MoE)的 Transformer 背骨,gpt-oss-120b 每个 token 激活 51 亿个参数(共 1170 亿),而 gpt-oss-20b 激活 36 亿(共 210 亿)。
采用交替的密集和局部带状稀疏注意力,分组多查询注意力(组大小 8)和旋转位置 Embedding(RoPE),支持上下文长度达 128k tokens。
训练数据侧重于 STEM、编码和通用知识的英语文本,使用开源的o200k_harmony 分词器进行分词。
后训练与推理:
在预训练后,模型经历监督微调和高计算的强化学习阶段以与OpenAIModelSpec对齐。
此过程增强了链式思维(CoT)推理和工具使用能力,支持可配置的推理努力——低、中、高,让开发者可以通过系统提示在延迟和性能之间达到平衡。
立即开始使用
探索:尝试在 SiliconFlow 模型广场中gpt-oss。
集成:使用我们的 OpenAI 兼容 API。在SiliconFlow API 文档中查找完整 API 规格。
今天就通过 SiliconFlow 的高性能 API 开始构建 gpt-oss!
