ステップ3はSiliconFlowでライブです: オープンソースの先駆的なMultimodal推論Model

2025/08/11

Step3、Stepfunの最新の最先端マルチモーダル推論モデルが SiliconFlow で利用可能になりました。321Bの総パラメータと38Bのアクティブパラメータを備えた大規模なMoEアーキテクチャ上に構築されたこのModelは、ビジョンと言語の推論において卓越したパフォーマンスを発揮します。企業と開発者のニーズに応じた最適化されたデコーディング効率を提供し、正確な視覚的解釈と錯覚の抑制を伴う根拠のあるマルチモーダル推論が可能です。

SiliconFlowのStep3 APIでは、次のことが期待されます:

コスト効果のある価格設定: Step3は、$0.57/M token (Input) および $1.42/M token (Output) で提供されます。
コンテキスト長: 64Kのコンテキスト長をサポートします。
ネイティブサポートツール使用 / 関数呼び出し。

主要な能力とベンチマークパフォーマンス

Step3は強力な視覚認識と高度な推論能力を備え、正確なクロスドメインの理解、マルチモーダルな数学的推論、現実世界に基づく視覚理解タスクを可能にします。

これらの能力は、業界標準のベンチマーク全体での強力なパフォーマンスにより証明されており、視覚的理解と推論を両方必要とするタスクにおいてその有効性を示しています:

VLMベンチマークパフォーマンス: Step3は、オープンソースのVLMモデルとしてMMMの最高スコア74.2を達成し、Gemini 2.5 Flash (73.2) といったプロプライエタリなVLMを超えます。Hallusion Benchでは64.2を獲得し、Claude Opus 4 (59.9)、Claude Sonnet 4 (57.0)、o3 (60.1) などを含む主要なプロプライエタリモデルを上回り、複雑な視覚推論、事実性、クロスドメイン理解におけるStep3の優れたパフォーマンスを示します。
LLMベンチマークパフォーマンス: Step3は、AIME25で82.9、GPQA-Diamondで73.0、およびLiveCodeBenchで67.1を維持し、数学的推論、トップレベルの大学院正当化、コード生成における強力な能力を示しています。

トップレベルのパフォーマンスに加え、Step3は低コストでも提供されており、あなたのワークロードにとって予算に優しい選択肢となります。

技術的ハイライト

Step3は、マルチモーダルアライメント、デコーディングコスト、インファレンス効率の主要な課題に対処し、Modelアーキテクチャの設計、トレーニングパイプラインおよび展開全体でのフルスタック最適化を行います:

事前トレーニングModelアーキテクチャ: Step3は、新しいマルチマトリックス因子分解アテンション (MFA) メカニズムを採用しており、KVキャッシュのオーバーヘッドと計算コストを削減しつつ、Modelの能力とインファレンス効率を維持します。
マルチモーダル能力:
- Step3は5BのVisionエンコーダーを使用し、デュアルレイヤー2D畳み込みダウンサンプリングによって、視覚的なtokenをオリジナルサイズの1/16に削減し効率を向上させます;
- トレーニングは2段階のアプローチを採用し、最初にエンコーダーの認識を強化し、次にVisionエンコーダーを凍結してバックボーンとコネクターレイヤーを最適化します。
AFDシステムアーキテクチャ: Step3は、計算タスクをマルチステージパイプラインスケジューリングで専門サブシステムに分離するAttention-FFN分離 (AFD) を実装し、全体的なスループット効率を効果的に向上させます。

SiliconFlowでの実環境でのパフォーマンス

Step3を使用してSiliconFlowにレストランのレシートをアップロードし、食事のカロリーを計算します。食品項目の正確な識別、複雑な説明の解析、料理のカテゴライズ、カロリー値との一致、合計カロリーの見積もり（例: 900-1330 kcal）が可能です。

このプロセスは、データの取得から概念認識、計算、最終的な説明まで、明確で一貫したロジックを用いた完全なクローズドループを形成しました。

今すぐ開始

探索: Step3をSiliconFlow Playgroundで試してみてください。
統合: OpenAI互換APIを使用してください。SiliconFlow API ドキュメントで完全なAPI仕様を確認してください。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)