Шаг 3 теперь в сети на SiliconFlow: ведущая открытая модель мультимодального рассуждения

11 авг. 2025 г.

Содержание

Шаг 3 теперь в сети на SiliconFlow: ведущая открытая модель мультимодального рассуждения
Шаг 3 теперь в сети на SiliconFlow: ведущая открытая модель мультимодального рассуждения

Шаг3, новейшая передовая многомодальная модель рассуждений Stepfun теперь доступна на SiliconFlow. Построенная на крупномасштабной MoE архитектуре с общим количеством параметров в 321B и активными параметрами в 38B, модель обеспечивает исключительную производительность в задачах видения-языкового рассуждения. Она предлагает оптимизированную эффективность декодирования для нужд предприятий и разработчиков, позволяя обоснованное многомодальное рассуждение с точной визуальной интерпретацией и уменьшением галлюцинации.

С Step3 API от SiliconFlow, вы можете ожидать:

  • Экономически выгодное ценообразование: Шаг3 $0.57/М tokens (Input) и $1.42/М tokens (Output).

  • Длина контекста: поддерживает длину контекста 64K.

  • Нативная поддержка использования инструментов / вызов функций.

Ключевые возможности и производительность в бенчмарках

Шаг3 обладает мощным визуальным восприятием и улучшенными возможностями рассуждений, позволяя точное междоменное понимание, многомодальное математическое рассуждение и реальные задачи визуального понимания.

Эти возможности демонстрируются через высокую производительность на отраслевых бенчмарках, подчеркивая его эффективность в задачах, требующих как визуального понимания, так и рассуждений:

  • Производительность на VLM бенчмарках: Шаг3 достигает наивысшего MMMU балла (74.2) среди моделей VLM с открытым исходным кодом, превосходя проприетарные VLM, такие как Gemini 2.5 Flash (73.2); 64.2 на Hallusion Bench, превосходя ведущие проприетарные модели, включая Claude Opus 4 (59.9), Claude Sonnet 4 (57.0) и o3 (60.1), демонстрируя превосходную производительность Шаг3 в комплексном визуальном рассуждении, фактичности и междоменном понимании.

  • Производительность на LLM бенчмарках: Шаг3 сохраняет конкурентные результаты с 82.9 на AIME25, 73.0 на GPQA-Diamond и 67.1 на LiveCodeBench, демонстрируя сильные возможности в математическом рассуждении, высшее университетское рассуждение и генерацию кода.

В дополнение к высококлассной производительности, Шаг3 также стоит дешевле — что делает его экономичным выбором для вашего рабочего процесса.

Технические особенности

Шаг3 решает ключевые задачи многомодального выравнивания, затрат на декодирование и эффективности вывода через оптимизации полного цикла в проектировании архитектуры модели, тренинговом процессе и внедрении:

  • Архитектура модели предварительного обучения: Шаг3 использует новый механизм внимания мульти-матричной факторизации (MFA), сокращающий накладные расходы KV-кэша и вычислительные расходы, сохраняя при этом возможности модели и эффективность вывода.

  • Многомодальные возможности:

    • Шаг3 использует 5B Vision Encoder с двухслойным двухмерным сверточным понижением разрешения, уменьшая визуальные token в 1/16 от оригинального размера для повышения эффективности;

    • Тренировочный процесс принимает двухэтапный подход: сначала улучшается восприятие энкодера, затем замораживается vision encoder для оптимизации основной и соединительных слоев.

  • Архитектура системы AFD: Шаг3 реализует разложение внимания-FFN (AFD), которое разделяет вычислительные задачи на специализированные подсистемы с многослойной планировкой конвейера, эффективно улучшая общую эффективность пропускной способности.

Производительность в реальном мире на SiliconFlow

Загрузите квитанцию из ресторана в Шаг3 на SiliconFlow, чтобы рассчитать калорийность блюда. Он точно идентифицирует продукты питания, анализирует сложные описания, категоризирует блюда, сопоставляет их с калорийными значениями и оценивает общие калории (например, 900-1330 ккал).

Этот процесс сформировал полный замкнутый цикл — от необработанных данных до распознавания концептов, расчета и окончательного объяснения — с четкой и последовательной логикой на каждом этапе.

Начните немедленно

  1. Исследуйте: Попробуйте Шаг3 в SiliconFlow Playground.

  2. Интегрируйте: Используйте наш совместимый API с OpenAI. Исследуйте полные спецификации API в документации API SiliconFlow.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

Разблокируйте мощь Visual AI! Попробуйте Шаг3 прямо сейчас на SiliconFlow!

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Готовы ускорить ваше развитие ИИ?

Russian (Russia)
Russian (Russia)
Russian (Russia)