GLM-4.6V 이제 SiliconFlow에서: 최신 Multimodal 도구 사용이 SoTA 시각적 인텔리전스와 만난다

2025. 12. 11.

요약: GLM-4.6V, Z.ai의 최신 다중모달 대형 언어 모델이 이제 SiliconFlow에서 사용 가능합니다. 131K 다중 모달 컨텍스트 윈도우와 네이티브 기능 호출 통합 기능을 갖춘 이 모델은 시각적 이해와 추론에 있어서 최첨단 성능을 제공합니다. "시각적 지각"과 "실행 가능한 작용" 사이의 간극을 원활하게 연결합니다. GLM-4.6V 시리즈는 실제 비즈니스 시나리오에서 다중 모달 에이전트를 위한 통합 기술 기반을 제공합니다. 지금 GLM-4.6V를 시도하여 SiliconFlow API와 함께 다중 모달 에이전트를 업그레이드하십시오.

저희는 GLM-4.6V를 발표하게 되어 기쁩니다. Z.ai의 최신 다중 모달 기반 모델은 클라우드 및 엔터프라이즈급 시나리오에 맞춰 설계되었으며, 이제 SiliconFlow에서 사용할 수 있습니다. 네이티브 다중 모달 기능 호출 기능을 통합하고 있으며, 긴 컨텍스트 시각적 추론에서 탁월한 성능을 발휘합니다. 이는 지각에서 이해로, 실행으로의 순환을 직접적으로 닫습니다.

이제 SiliconFlow의 GLM-4.6V API를 통해 기대할 수 있는 사항은 다음과 같습니다:

예산 친화적 가격: GLM-4.6V $0.30/M token (입력) 및 $0.90/M token (출력)
131K 컨텍스트 윈도우: 긴 산업 보고서, 방대한 슬라이드 세트 또는 장시간 비디오 콘텐츠 처리 가능
원활한 통합: SiliconFlow의 OpenAI 호환 API를 통해 즉시 배포하거나 기존 에이전트 프레임워크, 자동화 도구 또는 워크플로에 연결하세요.

에이전트, 워크플로 또는 도구를 구축하는 경우:

리치 텍스트 콘텐츠 생성: 논문, 보고서, 슬라이드를 소셜 미디어 및 지식 기반을 위한 완성된 게시물로 변환
디자인-코드 자동화: 픽셀 레벨의 HTML/CSS/JS 코드 생성을 위한 스크린샷/디자인 업로드
비즈니스 문서 처리: 지표를 추출하고 비교 표를 합성하기 위한 보고서 처리
비디오 콘텐츠 운영: 대규모 요약, 태깅 및 인사이트 추출

SiliconFlow의 프로덕션-레디 API를 통해 GLM-4.6V를 이용하여 다중 모달 에이전트를 몇 분 안에 가동시키십시오 - 비용 문제나 엔지니어링 부담이 없습니다.

SiliconFlow 플랫폼의 라이브 데모에서 핵심 기능을 살펴보겠습니다.

주요 기능 및 벤치마크 성능

대부분의 LLM 파이프라인에서는 도구 호출이 여전히 텍스트 전용입니다: 이미지 또는 문서 작업을 위해 모든 것을 먼저 텍스트로 변환한 다음 다시 전환해야 합니다. 이 프로세스는 잠재적으로 정보 손실을 초래하고 시스템 복잡성을 높입니다. GLM-4.6V는 네이티브 다중 모달 도구 호출 기능으로 이를 변화시킵니다:

다중 모달 입력: 이미지, UI 스크린샷 및 문서 페이지는 도구 인수로 직접 전달될 수 있어 수동 텍스트 변환을 피하고 레이아웃 및 시각적 단서를 유지합니다.
다중 모달 출력: 모델은 검색 페이지, 차트, 렌더된 웹 스크린샷 또는 제품 이미지를 직접 해석하고 이를 추론 및 최종 응답에 다시 피드백할 수 있습니다.

지각 → 이해 → 실행의 루프를 닫아 GLM-4.6V는 다음과 같은 핵심 기능을 지원합니다:

리치 텍스트 콘텐츠 이해 및 생성: 복잡한 텍스트, 차트, 표 및 수식을 정확하게 이해한 다음 시각적 도구를 자율적으로 호출하여 생성 중 중요한 비주얼을 자르고 이미지 품질을 감사하여 출판 준비 완료 콘텐츠를 구성합니다 사회적 미디어 및 지식 기반에 적합합니다.
시각적 웹 검색: 검색 의도를 인식하고 적절한 검색 도구를 자율적으로 트리거한 후 혼합 시각-텍스트 결과를 이해하고 연관 정보를 식별합니다. 그리고 결국 구조화된 및 시각적으로 풍부한 답변을 제공하는 추론을 수행합니다.
프론트엔드 복제 & 시각적 상호작용: 레이아웃, 구성 요소 및 색 구성표를 스크린샷에서 식별하여 픽셀 레벨의 복제를 수행하고, 그 후에 상호작용적으로 개선할 수 있습니다. 예를 들어 "이 버튼을 더 크게 만들고 녹색으로 변경하십시오"라고 지시합니다.
긴 컨텍스트 이해: 문서 약 150 페이지, 200 슬라이드 또는 한 시간의 비디오를 단일 패스로 처리하여 금융 보고서 분석 또는 전체 축구 경기 요약과 같은 작업을 가능하게 하며 특정 골 이벤트 및 타임스탬프를 정확히 파악합니다.

예를 들어,숫자, 표 및 차트로 가득 찬 두 개의 금융 보고서를 업로드하면, GLM-4.6V는 뛰어난 시각적 이해 및 추론 성능을 보여줍니다. 테이블과 차트를 실제로 이해하고 숫자를 추론하여 수익 성장, 수익성 및 시장 포지셔닝에 대한 실행 가능한 인사이트를 제공했습니다.

SiliconFlow Playground는 text & image 입력을 지원합니다. 다른 입력 유형에 대해서는 API 서비스를 사용하세요.

GLM-4.6V는 또한 20+의 주류 다중 모달 벤치마크, 포함하여 MMBench, MathVista 및 OCRBench 등을 평가하여 개방형 소스 모델에서 최첨단 성능을 달성했습니다. Qwen3-VL-235B, Kimi-VL-A3B-Thinking-2506 및 Step3-321B와 같은 비교 가능한 크기의 모델과 비교하여 다중 모달 이해, 다중 모달 에이전트 작업 및 장기 컨텍스트 처리에서 일치하거나 뛰어난 성능을 보여줍니다.

기술

GLM-4.6V는 실 세계 비즈니스 시나리오에서 다중 모달 에이전트를 위한 기술적 기반을 설정합니다. 이 성능을 실현하기 위해, GLM-4.6V는 다음과 같은 포괄적인 혁신 기능을 소개합니다:

모델 아키텍처 및 긴 시퀀스 모델링: GLM-4.6V는 이미지-텍스트 데이터의 긴 컨텍스트에 대한 지속적인 사전 교육, 시각-언어 압축 정렬 (Glyph에서 영감을 받아)로 시각적 인코딩과 언어적 의미를 더 잘 결합시킵니다.
다중 모달 세계 지식: 기본적인 시각적 이해와 교차 모달 QA의 정확성과 완전성을 향상시키기 위해 십억 규모의 다중 모달 지각 및 세계 지식 코퍼스를 도입하였습니다.
기계적 데이터 및 MCP 확장: 대규모 합성 기계적 훈련을 통해 GLM-4.6V는 URL 기반 다중 모달 처리 및 "Draft → Image Selection → Final Polish" 워크플로를 사용하는 끝에서 끝까지 교체 텍스트-이미지 출력과 함께 Model Context Protocol (MCP)를 확장합니다.
다중 모달 에이전트를 위한 RL: 도구 호출 동작을 통합적인 RL 목적으로 통합하고, 시각적 피드백 루프 (UI2Code^N을 기반으로)로 모델이 렌더링 결과를 사용하여 코드 및 동작을 자기 수정하도록 하여, 자기 개선형 다중 모달 에이전트로 발전합니다.

즉시 시작하기

탐색: SiliconFlow Playground에서 GLM-4.6V를 체험해 보세요.
통합하기: 우리의 OpenAI 호환 API를 사용하세요. SiliconFlow API 문서에서 전체 API 사양을 탐색하세요.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.6V",
    "messages": [
        {
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "detail": "auto",
                        "url": "https://tse4.mm.bing.net/th/id/OIP.mDDGH4uc_a7tmLFLJvKXrQHaEo?rs=1&pid=ImgDetMain&o=7&rm=3"
                    }
                },
                {
                    "type": "text",
                    "text": "What is in the picture?"
                }
            ],
            "role": "user"
        }
    ],
    "stream": True,
    "temperature": 1
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.6V",
    "messages": [
        {
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "detail": "auto",
                        "url": "https://tse4.mm.bing.net/th/id/OIP.mDDGH4uc_a7tmLFLJvKXrQHaEo?rs=1&pid=ImgDetMain&o=7&rm=3"
                    }
                },
                {
                    "type": "text",
                    "text": "What is in the picture?"
                }
            ],
            "role": "user"
        }
    ],
    "stream": True,
    "temperature": 1
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.6V",
    "messages": [
        {
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "detail": "auto",
                        "url": "https://tse4.mm.bing.net/th/id/OIP.mDDGH4uc_a7tmLFLJvKXrQHaEo?rs=1&pid=ImgDetMain&o=7&rm=3"
                    }
                },
                {
                    "type": "text",
                    "text": "What is in the picture?"
                }
            ],
            "role": "user"
        }
    ],
    "stream": True,
    "temperature": 1
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)