Qwen3-VL-8B 이제 SiliconFlow에서: 작은 Model, 큰 Vision

2025. 10. 28.

요약:Qwen3-VL-8B — Qwen3-VL 가족의 최신 멤버 —가 이제 SiliconFlow에서 제공됩니다. 이 컴팩트한 비전-언어 모델은 Instruct와 Thinking 변형 모두에서 풀스케일의 멀티모달 추론을 제공하며, VRAM 소모를 크게 줄였습니다. 8B 매개변수 크기에도 불구하고, 이 모델은 주력 모델 Qwen3-VL-235B의 완전한 기능을 상속받아, 고급 텍스트 생성에서 공간적 및 비디오 이해에 이르기까지, Gemini 2.5 Flash Lite 및 GPT-5 Nano와 같은 더 큰 모델들을 능가합니다. 효율성과 성능이 만나면서, Qwen3-VL-8B는 이제 SiliconFlow의 프로덕션 준비 API를 통해 이용 가능합니다.

Qwen3-VL 생태계를 확장하며, SiliconFlow는 **Qwen3-VL-8B 시리즈를 우리 모델 카탈로그에** 소개하게 되어 기쁩니다 — 파라미터 크기와 멀티모달 기능 간의 균형을 재정의하는 컴팩트하면서도 강력한 Dense 비전-언어 모델입니다. Instruct와 Thinking 두 변형으로 제공되며, Qwen3-VL-235B-A22B-Instruct와 Qwen3-VL-235B-A22B-Thinking이라는 주력 형제들의 완전한 기능을 상속받아, 뛰어난 텍스트 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 컨텍스트 길이, 향상된 공간적 및 비디오 역학 이해, 그리고 더 강력한 에이전트 기능을 포함합니다.

SiliconFlow의 Qwen3-VL-8B API와 함께하면 다음이 가능합니다:

예산 친화적 가격:
- Qwen3-VL-8B-Instruct: $0.18/M tokens (Input) 및 $0.68/M tokens (Output)
- Qwen3-VL-8B-Thinking: $0.18/M tokens (Input) 및 $2.00/M tokens (Output)
262K 컨텍스트 창: 텍스트, Image, 및 Video를 가로지르는 장문 형태의 멀티모달 이해를 지원합니다.
원활한 통합: SiliconFlow의 OpenAI**/Anthropic 호환 API**로 즉시 빌드하거나 기존 워크플로에 통합하십시오.

왜Qwen3-VL-8B이 중요한가

Qwen3-VL 패밀리의 기반을 바탕으로, 8B 변형은 실세계 애플리케이션을 위해 설계된 포괄적인 향상 세트를 도입합니다:

시각 에이전트 기능: PC/모바일 GUI를 작동시킵니다 — 요소를 인식하고, 기능을 이해하며, 도구를 호출하고, 작업을 독립적으로 완료합니다.
고급 공간적 인식: 객체의 위치, 시점, 차단을 판단하며, 보다 강력한 2D 기준을 제공하고 공간 추론과 구현된 AI를 위한 3D 기준을 가능하게 합니다.
시각 코딩 향상: Image와 Video에서 Draw.io/HTML/CSS/JS를 생성합니다.

긴 컨텍스트 및 비디오 이해: 기본 256K 컨텍스트(1M까지 확장 가능), 책과 몇 시간 동안의 비디오를 완전하게 회상하고 초 단위 인덱싱 처리합니다.
향상된 멀티모달 추론: 인과 분석을 통해 근거에 기반한 논리적이고 증거 기반의 답변을 제공하며 STEM/수학에서 뛰어납니다.
확장된 OCR: 32개 언어를 지원하며(19개에서 증가), 낮은 조명, 흐림, 기울어진 상태에서도 잘 작동하며, 희귀하거나 고대 문자와 기술 용어의 처리 및 긴 문서 구조 파싱이 개선되었습니다.

업그레이드된 시각적 인식: 더 넓고 더 높은 품질의 사전 학습을 통해 유명 연예인, 애니메이션, 제품, 랜드마크, 동식물 등 포괄적인 인식을 가능하게 합니다.
순수 LLMs에 필적하는 텍스트 이해: 손실 없는 통일된 이해를 위한 Seamless text-vision 융합.

이러한 향상은 실세계 기준 성능에서 훌륭한 성과를 발휘하며, Qwen3-VL-8B는 STEM, VQA, OCR, video 이해 및 에이전트 기반 작업 등 공공 벤치마크 전반에 걸쳐 감명 깊은 성능을 제공합니다 — Gemini 2.5 Flash Lite를 능가하고, **GPT-5 Nano, 그리고 훨씬 큰 Qwen2.5-VL-72B**와도 경쟁합니다.

특히, 인상적인 공간적 추론 성능을 발휘하며, 실현된 지능 애플리케이션을 강화하기 위한 강력한 기반을 제공합니다.

또한, 더 작은 멀티모달 모델은 시각적 능력을 향상시키면 텍스트 이해력이 저하되는 근본적인 트레이드오프에 직면하게 됩니다. 이 "시소 효과"는 컴팩트하면서도 능력 있는 비전-언어 모델을 만드는 데 있어 오랫동안 장벽이 되어 왔습니다. Qwen3-VL-8B는 시각 Precision과 텍스트 견고성의 균형 잡힌 공동 최적화를 통해 이 제한을 극복합니다.

아키텍처 혁신과 기술 최적화를 통해 이 모델은 멀티모달 인식을 크게 향상시키면서도 아래 벤치마크에서 입증된 강력한 텍스트 이해력을 유지합니다.

결과는? 더 많은 기능이 이제 더 작은 모델에 맞습니다 — 인식에서 추론까지, 텍스트에서 Image와 Video까지.

실세계 응용 시나리오

컴팩트한 8B 밀집 아키텍처와 전체 스펙트럼 멀티모달 기능을 갖춘 Qwen3-VL-8B는 실세계 워크플로우에 고급 비주얼 인텔리전스를 제공합니다:

시각적 추론 및 STEM 작업: 도표, 차트, 수학 공식을 해석하여 기하학, 물리학 또는 화학 문제를 논리적 설명과 함께 해결합니다. 교육, 연구 및 AI 튜터링 시스템에 이상적입니다.
문서 이해 및 OCR: 스캔된 문서, 영수증 또는 기술 문서에서 정보를 추출하고 요약합니다. 32개 언어로 복잡한 레이아웃 파싱, 테이블 인식 및 구조화된 데이터 변환을 지원합니다.
동적 비전 및 에이전트 상호작용: 비디오 프레임을 분석하고, GUI 요소를 인식하며, PC 또는 모바일 인터페이스 내에서 상호작용을 시뮬레이션합니다 — "보고 판단하고 행동하는" 자율 에이전트를 실세계 환경에서 가능하게 합니다.
멀티모달 창작: 시각적 입력을 창의적이거나 기술적인 Output으로 변환합니다, 스크린샷에서 HTML/CSS/JS 레이아웃을 생성하거나 이미지와 클립에서 서술적인 이야기를 작성하는 것과 같은.

지능형 어시스턴트, 문서 분석 시스템 또는 창의적 멀티모달 도구를 구축하든, Qwen3-VL-8B는 SiliconFlow의 API 서비스를 통해 워크플로우에 주력 수준의 멀티모달 인텔리전스를 제공합니다.

즉시 시작하세요

탐색: Qwen3-VL-8B 시리즈를 SiliconFlow Playground에서 시도해 보세요.
통합: OpenAI 호환 API를 사용하세요. SiliconFlow API 문서에서 전체 API 사양을 탐색하십시오.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "Qwen/Qwen3-VL-8B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recufyDh5zjKVl.png"}
                },
                {
                    "type": "text",
                    "text": "what's this?"
                }
            ]
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "Qwen/Qwen3-VL-8B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recufyDh5zjKVl.png"}
                },
                {
                    "type": "text",
                    "text": "what's this?"
                }
            ]
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "Qwen/Qwen3-VL-8B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://sf-maas.s3.us-east-1.amazonaws.com/images/recufyDh5zjKVl.png"}
                },
                {
                    "type": "text",
                    "text": "what's this?"
                }
            ]
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)