OpenAI 的 gpt-oss 現已在 SiliconFlow 上線：專為代理工作流程、高級推理和工具使用而設計

2025年8月19日

SiliconFlow 很高興宣布推出gpt-oss-120B和gpt-oss-20B——最先進的開放權重語言模型，現在在我們的平台上提供。 gpt-oss-120B 基於 Mixture-of-Experts (MoE) 架構構建，擁有 1170 億個參數，每個 token 激活 51 億個，而 gpt-oss-20B 擁有 210 億個參數，每個 token 激活 36 億個。

在 OpenAI 的先進內部模型（包括 o3）啟發下，採用增強學習技術訓練，gpt-oss 為智能工作流程而設計，具備卓越的指令遵循、網頁搜索和 Python 代碼執行工具使用、並支持可配置的推理努力水平——實現複雜推理和低延遲輸出的兼顧。

無論您是構建複雜的推理管道、支持復雜工具使用還是部署大規模 AI 服務，SiliconFlow 上的 gpt-oss 提供了加速創新所需的靈活性和強大功能，並由我們完全優化的部署和準備生產的 API 服務支持。

使用 SiliconFlow 的 gpt-oss API，您可以預期：

性價比高的定價：
- gpt-oss-120b 每百萬 tokens 的輸入價格 $0.09，輸出價格 $0.45；
- gpt-oss-20b 每百萬 tokens 的輸入價格 $0.04，輸出價格 $0.18。
擴展上下文窗口：為複雜任務提供的 131K 上下文窗口。

關鍵功能與基準性能

在 SiliconFlow 上的 OpenAI gpt-oss 模型提供多功能的適應能力，能夠適應各種 AI 任務：

可配置的推理努力：根據您的具體用例和延遲需求輕鬆調整推理努力（低、中、高）。
全過程推理：提供對模型推理過程的完整訪問，便於調試和增加輸出信任度。
可微調：通過參數微調完全自定義模型以適應您的具體用例。
代理功能：利用模型的原生能力進行函數調用、網頁瀏覽、Python 代碼執行和結構化輸出。

此外，gpt-oss-120b 和 gpt-oss-20b 在標準學術基準上進行了評估，以衡量其在編碼、競賽數學、健康和代理工具使用方面的能力，與其他OpenAI 推理模型（包括 o3、o3-mini 和 o4-mini）進行比較：

gpt-oss-120b 在競賽編碼（Codeforces）、一般問題求解（MMLU 和 HLE）和工具調用（TauBench）上表現優於 OpenAI o3-mini，並匹配或超過 OpenAI o4-mini。此外，在健康相關查詢（HealthBench⁠）和競賽數學（AIME 2024 & 2025）方面表現更好，甚至超過了 o4-mini。
gpt-oss-20b 在這些相同的評估中匹配或超過 OpenAI o3-mini，即便其尺寸較小，甚至在競賽數學和健康方面表現出色。

類別	基準	gpt-oss-120B	gpt-oss-20B	OpenAI o3-mini	OpenAI o4-mini
編碼	Codeforces	2622	2516	2073 （無工具）	2719
工具使用	TauBench	🥇 67.8	54.8	–	65.6
健康	HealthBench	🥇 57.6	42.5	37.8	50.1
推理與真實性	AIME 2024 & 2025	96.6 / 97.9	96 / 98.7	87.3 / 86.5	98.7 / 99.5
	MMLU	90	85.3	87	93
	HLE	🥇 19	17.3	13.4 （無工具）	17.7
	GPQA-Diamond	80.1	71.5	77	81.4

憑藉這些功能和具有競爭力的基準性能，gpt-oss 為開發者提供了最佳的能力與性價比平衡。

gpt-oss 的技術亮點

基於這些能力和基準結果，gpt-oss 的技術基礎結合最前沿的架構與先進的訓練方法，交付高性能表現：

先進的訓練與架構：

使用 OpenAI 的最先進的預訓練和後訓練技術訓練，著重推理、效率和現實使用。
基於 Transformer 主幹和專家混合模式（MoE）構建，gpt-oss-120b 每個 token 激活 5.1B 個參數（總共 117B），而 gpt-oss-20b 激活 3.6B（總共 21B）。
使用交替密集和局部分段稀疏注意力、分組多查詢注意力（組大小 8）和旋轉位置嵌入（RoPE）支持的上下文長度達到 128k tokens。
訓練數據專注於 STEM、編碼和常識的英語文本，使用開放源的o200k_harmony 標記器標記化。

後訓練與推理：

在預訓練後，模型經過監督精調和高計算增強學習階段以與OpenAIModelSpec對齊。
該過程增強了全過程推理（CoT）和工具使用能力，支持可配置的推理努力——低、中、高——允許開發者通過系統提示平衡延遲和性能。

立即開始

探索：在 SiliconFlow 試玩 gpt-oss。
整合：使用我們的 OpenAI 相容 API。在SiliconFlow API 文檔中探索完整 API 規範。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())