Шаг 3 теперь в сети на SiliconFlow: ведущая открытая модель мультимодального рассуждения
11 авг. 2025 г.
Содержание
Шаг3, новейшая передовая многомодальная модель рассуждений Stepfun теперь доступна на SiliconFlow. Построенная на крупномасштабной MoE архитектуре с общим количеством параметров в 321B и активными параметрами в 38B, модель обеспечивает исключительную производительность в задачах видения-языкового рассуждения. Она предлагает оптимизированную эффективность декодирования для нужд предприятий и разработчиков, позволяя обоснованное многомодальное рассуждение с точной визуальной интерпретацией и уменьшением галлюцинации.
С Step3 API от SiliconFlow, вы можете ожидать:
Экономически выгодное ценообразование: Шаг3 $0.57/М tokens (Input) и $1.42/М tokens (Output).
Длина контекста: поддерживает длину контекста 64K.
Нативная поддержка использования инструментов / вызов функций.
Ключевые возможности и производительность в бенчмарках
Шаг3 обладает мощным визуальным восприятием и улучшенными возможностями рассуждений, позволяя точное междоменное понимание, многомодальное математическое рассуждение и реальные задачи визуального понимания.
Эти возможности демонстрируются через высокую производительность на отраслевых бенчмарках, подчеркивая его эффективность в задачах, требующих как визуального понимания, так и рассуждений:
Производительность на VLM бенчмарках: Шаг3 достигает наивысшего MMMU балла (74.2) среди моделей VLM с открытым исходным кодом, превосходя проприетарные VLM, такие как Gemini 2.5 Flash (73.2); 64.2 на Hallusion Bench, превосходя ведущие проприетарные модели, включая Claude Opus 4 (59.9), Claude Sonnet 4 (57.0) и o3 (60.1), демонстрируя превосходную производительность Шаг3 в комплексном визуальном рассуждении, фактичности и междоменном понимании.
Производительность на LLM бенчмарках: Шаг3 сохраняет конкурентные результаты с 82.9 на AIME25, 73.0 на GPQA-Diamond и 67.1 на LiveCodeBench, демонстрируя сильные возможности в математическом рассуждении, высшее университетское рассуждение и генерацию кода.
В дополнение к высококлассной производительности, Шаг3 также стоит дешевле — что делает его экономичным выбором для вашего рабочего процесса.

Технические особенности
Шаг3 решает ключевые задачи многомодального выравнивания, затрат на декодирование и эффективности вывода через оптимизации полного цикла в проектировании архитектуры модели, тренинговом процессе и внедрении:
Архитектура модели предварительного обучения: Шаг3 использует новый механизм внимания мульти-матричной факторизации (MFA), сокращающий накладные расходы KV-кэша и вычислительные расходы, сохраняя при этом возможности модели и эффективность вывода.
Многомодальные возможности:
Шаг3 использует 5B Vision Encoder с двухслойным двухмерным сверточным понижением разрешения, уменьшая визуальные token в 1/16 от оригинального размера для повышения эффективности;
Тренировочный процесс принимает двухэтапный подход: сначала улучшается восприятие энкодера, затем замораживается vision encoder для оптимизации основной и соединительных слоев.
Архитектура системы AFD: Шаг3 реализует разложение внимания-FFN (AFD), которое разделяет вычислительные задачи на специализированные подсистемы с многослойной планировкой конвейера, эффективно улучшая общую эффективность пропускной способности.
Производительность в реальном мире на SiliconFlow
Загрузите квитанцию из ресторана в Шаг3 на SiliconFlow, чтобы рассчитать калорийность блюда. Он точно идентифицирует продукты питания, анализирует сложные описания, категоризирует блюда, сопоставляет их с калорийными значениями и оценивает общие калории (например, 900-1330 ккал).
Этот процесс сформировал полный замкнутый цикл — от необработанных данных до распознавания концептов, расчета и окончательного объяснения — с четкой и последовательной логикой на каждом этапе.

Начните немедленно
Исследуйте: Попробуйте Шаг3 в SiliconFlow Playground.
Интегрируйте: Используйте наш совместимый API с OpenAI. Исследуйте полные спецификации API в документации API SiliconFlow.
Разблокируйте мощь Visual AI! Попробуйте Шаг3 прямо сейчас на SiliconFlow!

