목차
요약: Qwen3-VL — Qwen 시리즈에서 가장 강력한 비전-언어 모델 — 이 이제 SiliconFlow에서 사용 가능합니다. 이 출시로 획기적인 업그레이드가 제공됩니다: 탁월한 텍스트 이해 및 생성, 멀티모달 추론, 고급 공간 및 비디오 인식, 262K 컨텍스트 윈도우, 32개 언어에 걸친 OCR, 그리고 더 강력한 에이전트 상호 작용. Interleaved-MRoPE 및 DeepStack과 같은 혁신으로 최대 235B 파라미터의 Dense 및 MoE 아키텍처로 구동되어 멀티모달 AI의 새로운 벤치마크를 설정합니다.
이제 Instruct 및 Thinking 변종이 SiliconFlow에서 활성화되었습니다. SiliconFlow의 실전 준비된 API로 오늘 바로 구축을 시작하십시오!
우리는 Qwen3-VL 시리즈가 이제 SiliconFlow에서 활성화되었다는 소식을 전하게 되어 기쁩니다. 차세대 비전-언어 모델로 보다 더 편안하게 세상을 보고 이해하며 반응하도록 설계된 Qwen3-VL은 멀티모달 AI를 재정의하는 획기적인 능력을 제공합니다. 정확한 비디오 이해, 확장된 32개 언어 OCR을 통해 드문 문자와 역사적 텍스트의 개선된 처리, 그리고 초롱 콘텐츠 분석을 위한 262K 컨텍스트 윈도우를 가능하게 합니다.
SiliconFlow는 이제 Instruct 및 Thinking 에디션을 제공합니다: 전자는 효율적인 실행을 위해 최적화되었고, 후자는 더 깊은 추론을 위해 향상되어 사용자가 필요에 맞는 모델을 자유롭게 선택할 수 있습니다.
SiliconFlow의 Qwen3-VL API를 통해 기대할 수 있는 사항:
비용 효율적인 가격:
Qwen3-VL-30B-A3B-Instruct $0.29/백만 token (Input) 및 $1/백만 token (Output)
Qwen3-VL-30B-A3B-Thinking $0.29/백만 token (Input) 및 $1/백만 token (Output)
Qwen3-VL-235B-A22B-Instruct $0.3/백만 token (Input) 및 $1.5/백만 token (Output)
Qwen3-VL-235B-A22B-Thinking $0.45/백만 token (Input) 및 $3.5/백만 token (Output)
262K 컨텍스트 윈도우: 긴 문서와 다중 회전 대화의 원활한 처리를 지원합니다.
이 조합—30B 대 235B, Instruct 대 Thinking—을 통해 SiliconFlow는 개발자에게 효율성, 깊이, 비용 간의 균형을 선택할 수 있게 하여 모든 규모에서 유연한 멀티모달 지능을 생산에 도입할 수 있습니다.
Qwen3-VL이 중요한 이유
대부분의 비전-언어 모델은 광범위한 능력이나 깊은 추론 간의 선택의 기로에 서게 되지만, 대개 둘 다 충족시키지 못합니다. 일반 모델은 복잡한 논리에서 어려움을 겪고, 전문화된 모델은 다양성이 부족합니다. 보는 것이 이해하는 것은 아니며 이해한다고 해서 문제 해결이 보장되지는 않습니다.
Qwen3-VL은 이중 에디션 접근법으로 이 문제를 해결합니다:
Instruct: 광범위한 일상적 비전-언어 작업에 최적화되어 신뢰할 수 있는 성능을 제공합니다.
Thinking: 복잡한 문제 해결을 위해 STEM 및 수학에서 고급 추론 기능이 강화되었습니다.
함께, 세 가지 주요 영역에서 기능을 잠금 해제합니다:
1. Agentic
비주얼 에이전트: AI가 앱과 웹사이트를 탐색하도록 하십시오! UI 요소를 인식하고 기능을 이해하며 다중 단계 작업을 자율적으로 실행합니다. 또한 벤치마크에서 전 세계 최고 수준의 성과를 달성하고 OS 월드와 같은 도구를 사용하여 세밀한 지각 작업 성과를 크게 향상시킵니다.
훨씬 나은 공간 이해: 절대 좌표에서 상대 좌표로의 2D 그라운딩. 객체 위치, 관점 변경, 가림 관계를 판단할 수 있습니다. 또한 3D 그라운딩을 지원하며 복잡한 공간 추론 및 구현된 AI 응용 프로그램의 기초를 마련합니다.
디자인에서 코드로: 스크린샷이나 비디오를 업로드하고 프로덕션 준비 완료된 Draw.io 다이어그램, HTML, CSS 또는 JavaScript를 생성하여 '보이는 것이 얻는 것입니다' 시각적 프로그래밍을 현실로 만듭니다.

2. 인지 및 이해
긴 컨텍스트 및 긴 비디오 이해: 모든 모델이 262K 컨텍스트 윈도우를 기본적으로 지원하며 최대 1백만 token까지 확장 가능합니다. 이는 수백 페이지의 기술 문서, 전체 교과서, 심지어 시간 단위의 비디오를 투입할 수 있으며 모델이 모든 것을 기억하고 세부 정보를 정확히 검색할 수 있음을 의미합니다.
확장된 OCR: 32개 언어에 대한 지원, 흐린/기울어진/저조명 이미지에서의 강력한 성능, 드문 문자, 고대 텍스트 및 기술 용어의 더 나은 처리, 긴 문서의 구조 파싱 개선.
개선된 시각 인식 및 인식: 사전 학습 데이터의 품질과 다양성을 개선함으로써 모델은 이제 유명인사, 애니메이션 캐릭터, 제품, 랜드마크에서 동식물에 이르기까지 훨씬 더 광범위한 객체를 인식할 수 있습니다 – 일상 생활 및 전문 '무엇이든 인식' 필요를 충족합니다.

3. 수학 & 언어
더 강력한 멀티모달 추론 (Thinking 버전): Thinking 모델은 STEM 및 수학 추론에 특별히 최적화되었습니다. 복잡한 과제 질문에 직면했을 때 세밀한 사항을 알아차리고 문제를 단계별로 나누며 원인과 결과를 분석하고 논리적이고 증거 기반의 답변을 제공합니다. MathVision, MMMU, MathVista와 같은 추론 벤치마크에서 강력한 성과를 달성합니다.
우수한 텍스트 중심 성능: Qwen3-VL은 초기 단계부터 텍스트 및 시각 모달리티의 공동 사전 학습을 통해 지속적으로 언어 능력을 강화합니다. 텍스트 기반 작업의 성능은 Qwen3-235B-A22B-2507 — 플래그십 언어 모델 — 에 맞먹으며, 차세대 비전-언어 모델의 진정한 '텍스트 기반의, 멀티모달 강력 모델'로 만듭니다.

벤치마크 성능 및 기술 아키텍처 업데이트
Qwen3-VL은 넓은 비전-언어 기술을 시연할 뿐만 아니라 멀티모달 및 순수 텍스트 평가 전반에 걸쳐 최첨단 성과를 제공합니다.
Qwen3-VL-235B-A22B-Instruct & Qwen3-VL-235B-A22B-Thinking:


벤치마크 성능 외에도, Qwen3-VL-235B-A22B-Instruct는 오픈 소스 커뮤니티에서 주목할만한 진전을 이루었습니다. OpenRouter의 최신 통계 (2025년 10월)에 따르면, 48%의 시장 점유율로 이미지를 처리하는 데 #1로 랭크되며 Gemini 2.5 Flash와 같은 다른 선도적인 멀티모달 모델들을 제치고 있습니다.
특히 SiliconFlow는 OpenRouter의 제공자로서, Qwen3-VL-235B-A22B-Instruct를 비롯하여 DeepSeek-V3.2-Exp, GLM-4.6, Kimi K2-0905, GPT-OSS-120B와 같은 다른 선두 모델들도 제공하여 개발자에게 최첨단 모델에 대한 통합된 접근을 제공합니다.

Qwen3-VL-30B-A3B-Instruct & Qwen3-VL-30B-A3B-Thinking:


건축 혁신
Qwen3-VL의 능력을 구동하는 세 가지 핵심 돌파구:
Interleaved-MRoPE: 강력한 위치 임베딩을 통한 시간, 폭, 높이에 걸친 전체 주파수 할당으로 긴 호라이즌 비디오 추론을 향상시킵니다.
DeepStack: 여러 수준의 ViT 기능을 융합하여 세밀한 세부 사항을 포착하고 이미지-텍스트 정렬을 선명하게 합니다.
텍스트-타임스탬프 정렬: T-RoPE를 넘어 정확한 타임스탬프 기반 이벤트 로컬라이제이션으로 강력한 비디오 시간 모델링으로 나아갑니다.

실제 응용 시나리오
비디오 콘텐츠 분석 및 인덱싱 시간 단위의 비디오를 프레임 단위로 정확하게 이해하여 처리—“15분에 무슨 일이 일어났습니까?” 또는 “빨간색 연사의 주요 토론 주제를 요약하십시오”와 같은 질문 처리에 이상적입니다. 미디어 회사, 교육 플랫폼 및 효율적인 장기간 분석을 필요로 하는 콘텐츠 모더레이션에 이상적입니다.
지능형 문서 처리 복잡한 문서에서 구조화된 정보를 추출합니다. 32개 언어로, 역사적 아카이브, 기술 매뉴얼 및 흐릿한 스캔까지 포함하여 처리합니다. 법적 연구, 학술 분석 또는 기업 지식 관리를 위해 전체 책 (최대 1M token)을 처리할 수 있습니다.
노코드 개발 및 UI 자동화 디자인 목업을 업로드하여 프로덕션 준비 코드를 생성하거나 비주얼 에이전트가 자율적으로 앱을 탐색하도록 하십시오—양식을 작성하고 워크플로를 테스트하며 다단계 작업을 실행합니다. 프로토 타이핑을 가속화하고 QA 자동화를 촉진하며 수동 코딩 시간을 줄입니다.
STEM 교육 및 연구 과학적 다이어그램과 수학 방정식을 단계별로 이유 설명합니다. Thinking 에디션은 복잡한 문제를 세분화하고 인과 관계를 설명하며 학생, 연구자 및 교육자를 위한 증거 기반의 답변을 제공합니다.
즉시 시작
1. 탐색: Qwen3-VL 시리즈를 SiliconFlow Playground에서 시도하세요.
2. 통합: 우리의 OpenAI 호환 API를 사용하세요. SiliconFlow API 문서에서 전체 API 사양을 탐색하세요.
멀티모달 에이전트를 구축하든, UI 워크플로를 자동화하든, 시간 단위의 비디오를 분석하든, Qwen3-VL은 당신에게 보고, 이해하고, 추론할 수 있는 능력을 제공합니다.
즉시 SiliconFlow의 실전 준비된 API로 시작하고 오늘 시각적 지능을 워크플로에 가져오세요!
SiliconFlow에서 사용 가능한 모든 모델 탐색 →

