GLM-4.5V: 세계 최고의 오픈 소스 Vision 추론 Model이 SiliconFlow에서 제공됩니다.

2025. 8. 15.

오늘 우리는 세계 최고의 성능을 가진 오픈 소스 100B 규모 Vision 추론 모델인 GLM-4.5V가 이제 SiliconFlow에서 사용할 수 있게 되었음을 소개하게 되어 기쁩니다. Z.ai의 주력 Text 기반 GLM-4.5-Air 모델을 기반으로 구축된 GLM-4.5V는 복잡한 문제 해결, 긴 문맥 이해 및 Multimodal 에이전트를 강화하도록 설계되었습니다. GLM-4.1V-Thinking의 기술적 접근 방식을 따르며 멀티모달 추론 및 실질적인 실제 응용의 발전을 강조합니다.

이미지 및 비디오를 정확하게 해석하거나 복잡한 문서에서 인사이트를 추출하거나 지능형 에이전트를 통해 그래픽 사용자 인터페이스와 자율적으로 상호작용하든 간에 GLM-4.5V는 강력한 성능을 제공합니다.

SiliconFlow의 GLM-4.5V API로 기대할 수 있는 것은 다음과 같습니다:

비용 효율적 가격: GLM-4.5V $0.14/M tokens (Input) 및 $0.86/M tokens (Output).
문맥 길이: 66K-token Multimodal문맥 창.
네이티브 지원: 도구 사용 및 Image Input.

주요 기능 및 벤치마크 성능

효율적인 하이브리드 트레이닝을 통해 다양한 유형의 비주얼 콘텐츠를 처리할 수 있으며 포함됩니다:

Image Reasoning: 장면 이해, 복잡한 다중 이미지 분석, 공간 인식.
Video Understanding: 긴 비디오 세그먼트화 및 이벤트 인식.
GUI 작업: 화면 읽기, 아이콘 인식, 데스크탑 운영 지원.
복잡한 차트 및 긴 문서 파싱: 연구 보고서 분석, 정보 추출.
고정화: 정확한 시각적 요소 위치 지정.

모델에는 Thinking Mode 스위치도 도입되어 사용자가 빠른 응답과 깊은 추론을 균형있게 조절할 수 있습니다.

그 강력한 기능을 입증하며, GLM-4.5V는 42개의 공개 Vision-언어 기준에 걸쳐 동일 규모의 모델 중에서 SOTA (state-of-the-art) 성능을 달성하여 그 분야에서의 선두적 위치를 확인했습니다.

기술 하이라이트

이 모델은 Image 및 Video 처리 성능을 향상시키기 위해 여러 기술 혁신으로 강화된 고급 Multimodal 긴 문맥 처리 기능을 특징으로 합니다:

66K Multimodal 긴 문맥 처리: Image 및 Video Input를 모두 지원하고 3D 컨볼루션을 활용하여 비디오 처리 효율성을 높입니다.
바이큐빅 보간 메커니즘: 고해상도 및 극단적인 비율의 이미지 처리에서의 강건성과 능력을 개선합니다.
3D 회전 위치 인코딩 (3D-RoPE): Multimodal 정보의 3차원 공간 관계에 대한 모델의 인식 및 추론을 강화합니다.

GLM-4.5V는 또한 세 단계의 트레이닝 전략을 따릅니다: 사전 훈련,감독 하에 Fine-tuning (SFT) 및 강화 학습 (RL):

사전 훈련 단계: 대규모 상호 교차 Multimodal 코퍼스 및 긴 문맥 데이터를 사용하여 모델의 복잡한 Image–Text와 Video 콘텐츠 처리 능력을 향상시킵니다.
SFT 단계: 생각 연쇄 (chain-of-thought) 형식의 훈련 샘플이 도입되어 GLM-4.5V의 인과적 추론 및 Multimodal 이해 능력을 향상시킵니다.
RL 단계: 다중 도메인 Multimodal 커리큘럼 강화 학습이 검증 가능 보상 기반 강화 학습 (RLVR) 및 인간 피드백 기반 강화 학습 (RLHF)을 결합한 다중 도메인 보상 시스템 구축을 통해 적용되며 STEM 문제, Multimodal 고정화 및 대리 작업에서 종합적인 최적화를 가능하게 합니다.

SiliconFlow에서의 실제 성능

다양한 제품이 표시된 전자상거래 페이지가 제공되었을 때, GLM-4.5V는 이미지에서 할인가 및 원래 가격을 식별한 후 정확하게 할인율을 계산할 수 있습니다.

우리 커뮤니티의 개발자 피드백은 GLM-4.5V에 대해 아주 긍정적이었습니다.

이제 커뮤니티에 가입하여 더 많은 사용 사례를 탐색하고 결과를 공유하며 1차 지원을 받으십시오!

즉시 시작하십시오

탐험: SiliconFlow Playground에서 GLM-4.5V를 시도해보세요.
통합: 우리의 OpenAI 호환 API를 사용하십시오. 전체 API 사양을 SiliconFlow API 설명서에서 탐색하십시오.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())