Шаг 3 теперь в сети на SiliconFlow: ведущая открытая модель мультимодального рассуждения

11 авг. 2025 г.

Содержание

Шаг 3 теперь в сети на SiliconFlow: ведущая открытая модель мультимодального рассуждения

Шаг3, новейшая передовая многомодальная модель рассуждений Stepfun теперь доступна на SiliconFlow. Построенная на крупномасштабной MoE архитектуре с общим количеством параметров в 321B и активными параметрами в 38B, модель обеспечивает исключительную производительность в задачах видения-языкового рассуждения. Она предлагает оптимизированную эффективность декодирования для нужд предприятий и разработчиков, позволяя обоснованное многомодальное рассуждение с точной визуальной интерпретацией и уменьшением галлюцинации.

С Step3 API от SiliconFlow, вы можете ожидать:

Экономически выгодное ценообразование: Шаг3 $0.57/М tokens (Input) и $1.42/М tokens (Output).
Длина контекста: поддерживает длину контекста 64K.
Нативная поддержка использования инструментов / вызов функций.

Ключевые возможности и производительность в бенчмарках

Шаг3 обладает мощным визуальным восприятием и улучшенными возможностями рассуждений, позволяя точное междоменное понимание, многомодальное математическое рассуждение и реальные задачи визуального понимания.

Эти возможности демонстрируются через высокую производительность на отраслевых бенчмарках, подчеркивая его эффективность в задачах, требующих как визуального понимания, так и рассуждений:

Производительность на VLM бенчмарках: Шаг3 достигает наивысшего MMMU балла (74.2) среди моделей VLM с открытым исходным кодом, превосходя проприетарные VLM, такие как Gemini 2.5 Flash (73.2); 64.2 на Hallusion Bench, превосходя ведущие проприетарные модели, включая Claude Opus 4 (59.9), Claude Sonnet 4 (57.0) и o3 (60.1), демонстрируя превосходную производительность Шаг3 в комплексном визуальном рассуждении, фактичности и междоменном понимании.
Производительность на LLM бенчмарках: Шаг3 сохраняет конкурентные результаты с 82.9 на AIME25, 73.0 на GPQA-Diamond и 67.1 на LiveCodeBench, демонстрируя сильные возможности в математическом рассуждении, высшее университетское рассуждение и генерацию кода.

В дополнение к высококлассной производительности, Шаг3 также стоит дешевле — что делает его экономичным выбором для вашего рабочего процесса.

Технические особенности

Шаг3 решает ключевые задачи многомодального выравнивания, затрат на декодирование и эффективности вывода через оптимизации полного цикла в проектировании архитектуры модели, тренинговом процессе и внедрении:

Архитектура модели предварительного обучения: Шаг3 использует новый механизм внимания мульти-матричной факторизации (MFA), сокращающий накладные расходы KV-кэша и вычислительные расходы, сохраняя при этом возможности модели и эффективность вывода.
Многомодальные возможности:
- Шаг3 использует 5B Vision Encoder с двухслойным двухмерным сверточным понижением разрешения, уменьшая визуальные token в 1/16 от оригинального размера для повышения эффективности;
- Тренировочный процесс принимает двухэтапный подход: сначала улучшается восприятие энкодера, затем замораживается vision encoder для оптимизации основной и соединительных слоев.
Архитектура системы AFD: Шаг3 реализует разложение внимания-FFN (AFD), которое разделяет вычислительные задачи на специализированные подсистемы с многослойной планировкой конвейера, эффективно улучшая общую эффективность пропускной способности.

Производительность в реальном мире на SiliconFlow

Загрузите квитанцию из ресторана в Шаг3 на SiliconFlow, чтобы рассчитать калорийность блюда. Он точно идентифицирует продукты питания, анализирует сложные описания, категоризирует блюда, сопоставляет их с калорийными значениями и оценивает общие калории (например, 900-1330 ккал).

Этот процесс сформировал полный замкнутый цикл — от необработанных данных до распознавания концептов, расчета и окончательного объяснения — с четкой и последовательной логикой на каждом этапе.

Начните немедленно

Исследуйте: Попробуйте Шаг3 в SiliconFlow Playground.
Интегрируйте: Используйте наш совместимый API с OpenAI. Исследуйте полные спецификации API в документации API SiliconFlow.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)