gpt-oss OpenAI Sekarang Hidup di SiliconFlow: Dirancang untuk Alur Kerja Agen, Penalaran Lanjut, dan Penggunaan Alat

19 Agu 2025

Daftar Isi

gpt-oss penAI Sekarang Tersedia di SiliconFlow

SiliconFlow dengan senang hati mengumumkan peluncuran gpt-oss-120B dan gpt-oss-20B — model bahasa open-weight mutakhir yang sekarang tersedia di platform kami. Dibangun dengan arsitektur MoE, gpt-oss-120B memiliki 117 miliar parameter dengan 5,1 miliar diaktifkan per token, sedangkan gpt-oss-20B memiliki 21 miliar parameter, mengaktifkan 3,6 miliar per token.

Dilatih dengan teknik pembelajaran penguatan yang terinspirasi oleh model internal lanjutan OpenAI (termasuk o3), gpt-oss dibangun untuk alur kerja agensi dengan kemampuan mengikuti instruksi yang luar biasa, penggunaan alat seperti pencarian web dan eksekusi kode Python, dan upaya penalaran yang dapat dikonfigurasi— memungkinkan penalaran kompleks dan keluaran latensi yang lebih rendah.

Apakah Anda sedang membangun pipeline penalaran kompleks, memungkinkan penggunaan alat canggih, atau menyebarkan layanan AI skala besar, gpt-oss di SiliconFlow memberikan fleksibilitas dan kekuatan untuk mempercepat inovasi — didukung oleh penyebaran yang sepenuhnya dioptimalkan dan layanan API siap produksi kami.

Dengan API gpt-oss SiliconFlow, Anda dapat mengharapkan:

Harga Efektif-Biaya:
- gpt-oss-120b $0,09/M tokens (input) dan $0,45/M tokens (output);
- gpt-oss-20b $0,04/M tokens (input) dan $0,18/M tokens (output).
Jendela Konteks Diperpanjang: Jendela konteks 131K untuk tugas-tugas kompleks.

Kemampuan Utama & Kinerja Tolok Ukur

Model gpt-oss OpenAI di SiliconFlow menawarkan kemampuan serbaguna untuk beradaptasi dengan berbagai tugas AI:

Upaya penalaran yang dapat dikonfigurasi: Mudah menyesuaikan upaya penalaran (rendah, sedang, tinggi) berdasarkan kasus penggunaan spesifik dan kebutuhan latensi Anda.
Pemikiran Berantai Penuh: Memberikan akses lengkap ke proses penalaran model, memfasilitasi debugging lebih mudah dan meningkatkan kepercayaan pada keluaran.
Fine-tunable: Menyesuaikan model sepenuhnya dengan kasus penggunaan spesifik Anda melalui fine-tuning parameter.
Kemampuan Agensi: Gunakan kemampuan bawaan model untuk pemanggilan fungsi, penjelajahan web, eksekusi kode Python dan Structured Outputs.

Juga, gpt-oss-120b dan gpt-oss-20b telah dievaluasi di tolok ukur akademik standar untuk mengukur kemampuan mereka dalam pengkodean, matematika kompetisi, kesehatan, dan penggunaan alat agensi, dibandingkan dengan model penalaran OpenAI lainnya, termasuk o3, o3‑mini, dan o4-mini:

gpt-oss-120b mengungguli OpenAI o3‑mini dan menyamai atau melampaui OpenAI o4-mini dalam pengkodean kompetisi (Codeforces), pemecahan masalah umum (MMLU dan HLE) dan pemanggilan alat (TauBench). Selain itu, performa lebih baik daripada o4-mini pada kueri terkait kesehatan (HealthBench⁠) dan matematika kompetisi (AIME 2024 & 2025).
gpt-oss-20b menyamai atau melampaui OpenAI o3‑mini pada evaluasi yang sama ini, meskipun ukurannya kecil, bahkan mengungguli dalam matematika kompetisi dan kesehatan.

Kategori	Tolok Ukur	gpt-oss-120B	gpt-oss-20B	OpenAI o3-mini	OpenAI o4-mini
Pengkodean	Codeforces	2622	2516	2073 (tanpa alat)	2719
Penggunaan Alat	TauBench	🥇 67,8	54,8	–	65,6
Kesehatan	HealthBench	🥇 57.6	42.5	37.8	50.1
Penalaran & Fakta	AIME 2024 & 2025	96,6 / 97,9	96 / 98,7	87,3 / 86,5	98,7 / 99,5
	MMLU	90	85,3	87	93
	HLE	🥇 19	17.3	13.4 (tanpa alat)	17.7
	GPQA-Diamond	80,1	71.5	77	81.4

Dengan fitur-fitur ini dan performa tolok ukur yang kompetitif, gpt-oss menawarkan pengembang keseimbangan optimal antara kemampuan dan efektivitas biaya.

Highlight Teknis gpt-oss

Membangun atas kemampuan dan hasil tolok ukur ini, fondasi teknis gpt-oss menggabungkan arsitektur canggih dengan metodologi pelatihan lanjutan untuk memberikan performa tinggi:

Pelatihan & Arsitektur Lanjutan:

Di latih menggunakan teknik pra-latihan dan pasca-latihan paling canggih OpenAI, menekankan pada penalaran, efisiensi, dan kegunaan di dunia nyata.
Dibangun di atas dasar Transformer dengan mixture-of-experts (MoE), gpt-oss-120b mengaktifkan 5.1B parameter per token (117B total), dan gpt-oss-20b mengaktifkan 3.6B (21B total).
Menerapkan perhatian berbanded lokal dan padat bergantian, perhatian multi-kueri berkelompok (ukuran grup 8) dan Rotary Positional Embedding (RoPE) yang mendukung panjang konteks hingga 128k tokens.
Data pelatihan berfokus pada teks bahasa Inggris dalam STEM, pengkodean, dan pengetahuan umum, ditokenisasi dengan tokenizer o200k_harmony open-source.

Pasca-Latihan & Penalaran:

Setelah pelatihan awal, model menjalani fine-tuning supervisi dan tahap pembelajaran penguatan berkalkulasi tinggi untuk menyelaraskan dengan OpenAIModelSpec.
Proses ini meningkatkan penalaran rantai pemikiran (CoT) dan kemampuan penggunaan alat, mendukung upaya penalaran yang dapat dikonfigurasi — rendah, sedang, dan tinggi — memungkinkan pengembang untuk menyeimbangkan latensi dan performa melalui perintah sistem.

Mulai Segera

Jelajahi: Coba gpt-oss di SiliconFlow playground.
Integrasikan: Gunakan API kami yang kompatibel dengan OpenAI. Jelajahi spesifikasi API lengkap di dokumentasi API SiliconFlow.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "openai/gpt-oss-20b",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you today",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())