目錄
步驟3, Stepfun最新的尖端多模態推理模型現在可以在SiliconFlow中獲得。該模型建構於大規模MoE架構中,總參數321B,活躍參數38B,展現出色的視覺-語言推理性能。它提供了企業和開發人員所需的編碼效率最佳化,實現準確的視覺解釋和減少幻覺的基礎多模態推理。
使用SiliconFlow的步驟3 API,您可以期待:
具成本效益的定價: 步驟3 $0.57/M tokens (輸入) 和 $1.42/M tokens (輸出)。
上下文長度: 支持64K上下文長度。
原生支持工具使用/功能調用。
關鍵功能與基準性能
步驟3具有強大的視覺感知和先進的推理能力,能準確地跨領域理解、多模態數學推理以及現實世界基礎視覺理解任務。
這些功能通過行業標準基準的強大性能來展示,突出其在需要視覺理解和推理任務上的有效性:
VLM 基準性能: 步驟3在開源VLM模型中達到最高的MMMU分數 (74.2),超越專有VLM如Gemini 2.5 Flash (73.2); Hallusion Bench得分64.2,超過包括Claude Opus 4 (59.9)、Claude Sonnet 4 (57.0)和o3 (60.1)在內的領先專有模型,展示了步驟3在複雜的視覺推理、事實性和跨領域理解上的卓越性能。
LLM 基準性能: 步驟3保持競爭力的結果,82.9 在 AIME25, 73.0 在 GPQA-Diamond 和 67.1 在 LiveCodeBench, 展現出色的數學推理、高級研究生水平推理和代碼生成能力。
除了其頂級性能,步驟3還以更低的成本提供服務——是您工作負載的經濟選擇。

技術亮點
步驟3通過全棧優化解決多模態對齊、編碼成本和推理效率的關鍵挑戰,涵蓋模型架構設計、訓練管道和部署:
預訓練模型架構: 步驟3採用新穎的多矩陣分解注意力 (MFA) 機制,降低KV緩存開銷和計算成本,同時維持模型能力和推理效率。
多模態能力:
步驟3使用5B視覺編碼器,具有雙層2D卷積降採樣,將視覺tokens減少至原始尺寸的1/16以提高效率;
訓練採用兩階段方法:首先增強編碼器感知,然後凍結視覺編碼器以優化骨幹和連接層。
AFD系統架構: 步驟3實施注意力-FFN解聚化 (AFD) ,將計算任務拆分為專用子系統,通過多階段管道調度有效提升總體通量效率。
SiliconFlow中的現實表現
將餐廳收據上傳至SiliconFlow的步驟3以計算餐點卡路里。它能準確識別食物項目,解析複雜描述,分類菜餚,匹配卡路里值並估算總卡路里(例如,900-1330 kcal)。
此過程形成一個完整的閉環——從原始數據到概念識別、計算和最終解釋——在每個階段都有明確一致的邏輯。

立即開始
探索: 在步驟3中嘗試SiliconFlow 體驗中心。
整合: 使用我們的OpenAI兼容API。在SiliconFlow API文檔中探索完整API規範。
解鎖視覺人工智慧的力量!立即在SiliconFlow上試試步驟3!

