GPT-OSS от OpenAI теперь доступен на SiliconFlow: Разработан для агентных рабочих процессов, передового рассуждения и использования инструментов.

19 авг. 2025 г.

Содержание

gpt-oss от penAI теперь доступен на SiliconFlow

SiliconFlow с радостью сообщает о запуске gpt-oss-120B и gpt-oss-20B — передовых языковых моделей с открытыми весами, которые теперь доступны на нашей платформе. Построенная на архитектуре MoE, gpt-oss-120B имеет 117 миллиардов параметров с активацией 5.1 миллиарда на каждый token, в то время как gpt-oss-20B имеет 21 миллиард параметров, активируя 3.6 миллиарда на каждый token.

Обученная с применением техник обучения с подкреплением, вдохновленных продвинутыми внутренними моделями OpenAI (включая o3), gpt-oss создана для агентных рабочих процессом с исключительным следованием инструкциям, использованием инструментов, таких как веб-поиск и выполнение Python-кода, и настройкой усилий для рассуждений — обеспечивая как сложное рассуждение, так и более быстрые Outputs.

Будь то создание сложных цепочек рассуждений, использование сложных инструментов или развертывание крупномасштабных AI-сервисов, gpt-oss на SiliconFlow обеспечивает гибкость и мощь для ускорения инноваций — при поддержке полностью оптимизированного развертывания и готового к производству API-сервиса.

С gpt-oss API от SiliconFlow вы можете ожидать:

Экономичное ценообразование:
- gpt-oss-120b $0.09/М tokens (Input) и $0.45/М tokens (Output);
- gpt-oss-20b $0.04/М tokens (Input) и $0.18/М tokens (Output).
Расширенное окно контекста: окно контекста до 131K для выполнения сложных задач.

Основные возможности и производительность в бенчмарках

Модели gpt-oss от OpenAI на SiliconFlow предлагают универсальные возможности для адаптации к широкому спектру AI-задач:

Настраиваемые усилия для рассуждений: легко регулируйте усилия для рассуждений (низкие, средние, высокие) в зависимости от вашего конкретного случая использования и потребностей в латентности.
Полная цепочка рассуждений: обеспечивает полный доступ к процессу рассуждений модели, облегчая отладку и повышая доверие к Outputs.
Настройка моделей: полностью настраивайте модели под ваш конкретный случай использования через параметрическое Fine-tuning.
Агентные возможности: используйте родные возможности моделей для вызова функций, веб-поиска, исполнения Python-кода и структурированных Outputs.

Также gpt-oss-120b и gpt-oss-20b были оценены по стандартным академическим бенчмаркам для измерения их возможностей в кодировании, математике соревнований, сфере здравоохранения и агентном использовании инструментов, в сравнении с другими моделями рассуждений OpenAI, включая o3, o3‑mini и o4-mini:

gpt-oss-120b превосходит OpenAI o3‑mini и соответствует или превосходит OpenAI o4-mini в кодировании для соревнований (Codeforces), общем решении проблем (MMLU и HLE) и вызове инструментов (TauBench). Более того, он показывает лучшие результаты по сравнению с o4-mini в запросах, связанных со здоровьем (HealthBench⁠) и математике соревновательного уровня (AIME 2024 & 2025).
gpt-oss-20b соответствует или превосходит OpenAI o3‑mini на этих же оценках, несмотря на его небольшие размеры, даже превосходя его в математике соревнований и мобильном здравоохранении.

Категория	Бенчмарк	gpt-oss-120B	gpt-oss-20B	OpenAI o3-mini	OpenAI o4-mini
Кодирование	Codeforces	2622	2516	2073 (без инструментов)	2719
Использование инструментов	TauBench	🥇 67.8	54.8	–	65.6
Здравоохранение	HealthBench	🥇 57.6	42.5	37.8	50.1
Рассуждение и фактичность	AIME 2024 & 2025	96.6 / 97.9	96 / 98.7	87.3 / 86.5	98.7 / 99.5
	MMLU	90	85.3	87	93
	HLE	🥇 19	17.3	13.4 (без инструментов)	17.7
	GPQA-Diamond	80.1	71.5	77	81.4

С этими функциями и конкурентной производительностью в бенчмарках gpt-oss предлагает разработчикам оптимальный баланс между возможностями и экономичностью.

Технические особенности gpt-oss

На основе этих возможностей и результатов бенчмарков технический фундамент gpt-oss сочетает современные архитектуры с передовыми методологиями обучения для достижения высокой производительности:

Продвинутое обучение и архитектура:

Обучено с использованием самых продвинутых техник предварительного и пост-тренировочного обучения OpenAI, с упором на рассуждения, эффективность и практическую применимость.
Создано на основе трансформаторного каркаса с смесью экспертов (MoE), gpt-oss-120b активирует 5.1 миллиард параметров на token (всего 117 миллиардов), а gpt-oss-20b активирует 3.6 миллиардов (всего 21 миллиард).
Использование чередования плотного и локально сжатого разреженного внимания, группового многозапросного внимания (размер группы 8) и встроенных ротационных позиций (RoPE) для поддержки длины контекста до 128К tokens.
Обучающиеся данные сосредоточены на английском тексте в STEM, кодировании и общей базе знаний, токенизированные с использованием открытого источника токенизатора o200k_harmony.

Пост-тренировка и рассуждение:

После предварительного обучения модели проходят этап Fine-tuning под наблюдением и высокопроизводительное обучение с подкреплением для соответствия спецификации модели OpenAI.
Этот процесс улучшает цепочку рассуждений (CoT) и возможности использования инструментов, поддерживая настраиваемые усилия для рассуждений — низкие, средние и высокие — позволяя разработчикам балансировать латентность и производительность через системные подсказки.

Начните прямо сейчас

Исследуйте: попробуйте gpt-oss в Playground SiliconFlow.
Интегрируйте: используйте наш совместимый с OpenAI API. Ознакомьтесь с полными спецификациями API в документации API SiliconFlow.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())