第3步现在在SiliconFlow上线：领先的开源Multimodal推理模型

2025年8月11日

Step3，Stepfun最新的尖端Multimodal推理模型现已在SiliconFlow上可用。基于一个规模庞大的MoE架构，总参数达到321B，活跃参数为38B，该模型在Vision-语言推理中提供了卓越的性能。它为企业和开发者的需求提供了优化的解码效率，实现了可靠的Multimodal推理，具有准确的视觉解读和减少的幻觉。

使用SiliconFlow的Step3 API，您可以期待：

经济实惠的价格：Step3 $0.57/M tokens (Input) 和 $1.42/M tokens (Output)。
上下文长度：支持64K上下文长度。
本地支持工具使用/函数调用。

关键能力与基准性能

Step3具有强大的视觉感知和高级推理能力，能够准确理解跨领域、多模态数学推理和现实世界的视觉理解任务。

这些能力通过跨行业标准基准的出色表现得以展示，突显了其在需要视觉理解和推理的任务中的有效性：

VLM基准性能：Step3在开源VLM模型中实现了最高的MMMU分数（74.2），超越了Gemini 2.5 Flash（73.2）等专属性VLM；在Hallusion Bench中取得64.2的成绩，表现优于包括Claude Opus 4（59.9）、Claude Sonnet 4（57.0）和o3（60.1）在内的领先专属模型，展示了Step3在复杂视觉推理、真实性和跨领域理解中的卓越表现。
LLM基准性能：Step3在AIME25中保持82.9，在GPQA-Diamond中保持73.0，在LiveCodeBench中保持67.1，展示了强大的数学推理、顶级毕业生级别推理和代码生成能力。

除了顶级性能外，Step3还具有较低的成本——使其成为您的负担得起的工作负载选择。

技术亮点

Step3通过模型架构设计、训练管道和部署的全栈优化解决了Multimodal对齐、解码成本和推理效率的关键挑战：

预训练模型架构：Step3采用了一种新颖的多矩阵分解注意力（MFA）机制，减少了KV缓存开销和计算成本，同时保持模型能力和推理效率。
Multimodal能力：
- Step3使用5BVision编码器，带有双层2D卷积降采样，将视觉tokens减少到原始大小的1/16，以提高效率；
- 训练采用两阶段方法：首先增强编码器感知，然后冻结Vision编码器以优化主干和连接层。
AFD系统架构：Step3实现了注意力-FFN解耦（AFD），将计算任务分解为专用子系统，具有多阶段管线调度，有效提高整体吞吐效率。

在SiliconFlow上的实际表现

上传餐厅小票到SiliconFlow上的Step3以计算餐点的卡路里。它准确识别食物项目，解析复杂描述，分类菜肴，将其与卡路里值匹配，并估算总卡路里（例如，900-1330千卡）。

这个过程形成了一个完整的闭环——从原始数据到概念识别、计算，最后解释——在每个阶段都有清晰一致的逻辑。

立即开始

探索：在Step3的SiliconFlow 模型广场中尝试。
集成：使用我们的OpenAI兼容API。在SiliconFlow API文档中探索完整的API规格。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)