단계 3 지금 SiliconFlow에 출시: 최고의 오픈 소스 Multimodal 추론 Model

2025. 8. 11.

Step3, Stepfun의 최신 첨단 Multimodal 추론 Model이 이제 SiliconFlow에서 사용할 수 있습니다. 321B의 총 매개변수와 38B의 활성 매개변수를 가진 대규모 MoE 아키텍처에 구축되어 Vision-언어 추론에서 뛰어난 성능을 제공합니다. 이는 기업과 개발자 요구에 최적화된 디코딩 효율성을 제공하며, 정확한 시각적 해석과 환각 감소로 결합된 Multimodal 추론을 가능하게 합니다.

SiliconFlow의 Step3 API를 통해 기대할 수 있는 것:

비용 효율적인 가격: Step3 $0.57/M tokens (Input) 및 $1.42/M tokens (Output).
컨텍스트 길이: 64K 컨텍스트 길이를 지원합니다.
기본 지원 도구 사용 / 함수 호출.

주요 기능 및 벤치마크 성능

Step3는 강력한 시각 인식과 고급 추론 기능을 가지고 있으며, 정확한 범용 이해, Multimodal 수학적 추론 및 실제로 근거 있는 시각적 이해 작업을 가능하게 합니다.

이러한 기능은 산업 표준 벤치마크 전반에서 강력한 성능을 통해 입증되며, 시각적 이해와 추론 모두를 요구하는 작업에 대한 효과성을 강조합니다:

VLM 벤치마크 성능: Step3는 오픈소스 VLM Model 중 최고 MMMU 점수 (74.2)를 달성, Gemini 2.5 Flash (73.2)를 포함한 독점 VLM을 능가합니다. Hallusion Bench에서는 64.2으로, Claude Opus 4 (59.9), Claude Sonnet 4 (57.0), o3 (60.1)등을 포함한 선도하는 독점 Model보다 뛰어난 성과를 보여주며, 복잡한 시각적 추론, 사실성 및 범용 이해에서 Step3의 우수한 성능을 입증합니다.
LLM 벤치마크 성능: Step3는 AIME25에서 82.9, GPQA-Diamond에서 73.0 및 LiveCodeBench에서 67.1로 경쟁력 있는 결과를 유지하며, 수학적 추론, 최상급 대학 수준의 추론 및 코드 생성에서 강력한 능력을 보여줍니다.

최고 수준의 성능 외에도 Step3는 비용이 더 낮아 작업량에 대한 경제적인 선택이 됩니다.

기술 하이라이트

Step3는 Model 구조 설계, 교육 파이프라인 및 배포를 아우르는 전체 스택 최적화를 통해 Multimodal 정렬, 디코딩 비용 및 Inference 효율성의 주요 과제를 해결합니다:

Pretrain Model 아키텍처: Step3는 KV 캐시 오버헤드와 계산 비용을 줄이면서 Model 기능 및 Inference 효율성을 유지하는 새로운 다중 행렬 분해 주의력 (MFA) 메커니즘을 사용합니다.
Multimodal 기능:
- Step3는 효율성을 개선하기 위해 원래 크기의 1/16로 시각적 token을 줄이는 이중 레이어 2D 컨볼루션 다운샘플링과 함께 5B Vision Encoder를 사용합니다;
- 교육은 두 단계 접근 방식을 채택합니다: 처음에는 인코더 인식을 향상시키고, 다음으로 Vision 엔코더를 고정하여 백본 및 연결 레이어를 최적화합니다.
AFD 시스템 아키텍처: Step3는 주의력-FFN 비분해 (AFD)를 구현하여 계산 작업을 전문 하위 시스템으로 분리하고 다단계 파이프라인 스케줄링으로 전체 처리량 효율성을 효과적으로 개선합니다.

SiliconFlow에서의 실제 성능

식당 영수증을 Step3에 업로드하여 식사의 칼로리를 계산합니다. 이는 음식 항목을 정확하게 식별하여 복잡한 설명을 분석하고, 요리 항목을 분류하고, 칼로리 값과 일치시키고 총 칼로리를 추정합니다 (예: 900-1330 kcal).

이 프로세스는 원시 데이터에서 개념 인식, 계산 및 최종 설명까지 완전한 폐쇄 루프를 형성하며, 각 단계마다 명확하고 일관된 논리를 제공합니다.

즉시 시작하기

탐색: Step3를 SiliconFlow Playground에서 시도해 보세요.
통합: 우리의 OpenAI 호환 API를 사용하세요. SiliconFlow API 문서에서 전체 API 사양을 탐색하세요.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "stepfun-ai/step3",
    "max_tokens": 65536,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "messages": [
        {
            "role": "user",
            "content": "tell me a story"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)