約step3
ステップ3は、StepFunの最先端のマルチモーダル推論Modelです。これは、321Bの総パラメータと38Bのアクティブパラメータを持つMixture-of-Experts (MoE) アーキテクチャ上に構築されています。このModelは、Vision-Language推論においてトップクラスのパフォーマンスを提供しながらデコードコストを最小限に抑えるために、エンドツーエンドで設計されています。Multi-Matrix Factorization Attention (MFA) と Attention-FFN Disaggregation (AFD) の共同設計により、ステップ3はフラグシップおよび低エンドのアクセラレータの両方において卓越した効率を維持しています。プレトレーニング中に、ステップ3は20TのText tokenと4TのImage-Text混合tokenを処理し、10以上の言語にまたがりました。このModelは、オープンソースModelとして、数学、コード、マルチモダリティを含む様々なベンチマークにおいて最先端のパフォーマンスを達成しました。
Step3の高度なMultimodal推論がいかに複雑な現実の問題を効率的に解決するか探る。
Multimodal科学的発見
複雑なデータセットを分析し、視覚データ(グラフ、Image)を解釈し、証明を生成し、一貫したステップバイステップの推論で論文を草稿することで研究を加速させる。
ユースケース例:
"電子顕微鏡のImageを解釈し、分光データと相関させることで材料科学者を支援し、新しい材料の性質を特定し、実験的な検証の速度を大幅に向上させた。"
高度なコード分析とデバッグ
コードベース全体を分析し、微妙な論理エラーを特定し、Visualログからのアルゴリズムとシステム動作の深い理解に基づいたパフォーマンス最適化を提案する。
ユースケース例:
"分散ログとアーキテクチャ図を推論することにより、高コンカレンシーRustマイクロサービスのレースコンディションを特定し、システムの安定性を向上する精密な修正を提供した。"
インテリジェントな財務インサイト
財務報告書、市場データ、およびVisualトレンドに対する多段階の定量分析を行い、因果関係を推論し、詳細な戦略的提言を生成する。
ユースケース例:
"会社の四半期毎の収益報告書、ニュース記事からの市場感情、および株式チャートパターンを分析し、リスクと成長機会を概説した多ページの投資提案を作成した。"
Multimodalシステムおよびコンプライアンス監査
AIを展開して複雑なシステム、法的契約、または工学図面を監査し、論理的依存関係を推論し、不一致を特定し、多様なデータタイプからの潜在的な問題にフラグを立てる。
ユースケース例:
"産業制御システム(ICS)の図面と運用ログをレビューし、論理的な推論によって潜在的なセキュリティ脆弱性を特定し、より堅牢な構成を提案した。"
ビジュアルコンテンツの解釈
Image、Video、複雑な図面から深いインサイトを抽出し、Visualな理解をTextualな文脈と組み合わせて自動要約とデータ抽出を行う。
ユースケース例:
"医学研究論文からの重要な発見を自動的に要約し、埋め込まれたグラフ、チャート、および顕微鏡Imageを解釈して簡潔なTextualな説明を生成した。"
インタラクティブな学習と指導
視覚情報とTextualな情報を統合して問題を複雑なステップの解決策を生成したり、図面を説明したり、インタラクティブな教育コンテンツを作成する。
ユースケース例:
"学生の手描きの図面を分析し、誤りを特定し、詳細でVisualに支援された解決策を提供することで、幾何学の問題に対するインタラクティブなチュートリアルを開発した。"
メタデータ
仕様
州
Deprecated
建築
Mixture-of-Experts (MoE) architecture with Multi-Matrix Factorization Attention (MFA) and Attention-FFN Disaggregation (AFD)
キャリブレートされた
いいえ
専門家の混合
はい
合計パラメータ
321B
アクティブ化されたパラメータ
38B
推論
いいえ
Precision
FP8
コンテキスト長
66K
Max Tokens
66K

