정보에 대해서Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct는 Qwen 팀에서 출시한 다중 모달 대형 언어 모델로, Qwen2.5-VL 시리즈의 일부입니다. 이 Model은 일반 객체 인식에 능숙할 뿐만 아니라 Text, 차트, 아이콘, 그래픽 및 이미지 내 레이아웃을 분석하는 데 매우 능합니다. 이는 도구를 추론하고 동적으로 지시할 수 있는 시각적 에이전트 역할을 하며, 컴퓨터와 전화기를 사용할 수 있습니다. 또한 이 Model은 이미지 내 객체를 정확하게 로컬화하고, 송장 및 표와 같은 데이터에 대한 구조화된 Output을 생성할 수 있습니다. 이전 버전 Qwen2-VL과 비교하여, 이 버전은 강화 학습을 통해 수학적 및 문제 해결 능력이 향상되었으며, 인간의 선호도에 더 잘 맞추어지도록 응답 스타일이 조정되었습니다.
Qwen2.5-VL-32B-Instruct의 Multimodal 인텔리전스와 에이전트 기능이 복잡한 시각적 및 분석적 과제를 해결하는 방법을 탐색합니다.
문서 데이터 추출
송장, 양식, 보고서에서 데이터 추출을 자동화하고 정보를 구조화하여 효율적인 처리를 돕습니다.
사용 사례 예시:
"수천 개의 스캔된 송장에서 공급업체, 항목 및 총액을 추출하여 데이터베이스에 입력하고 수작업 입력 시간을 80% 단축했습니다."
시각적 UI 자동화
웹 또는 모바일 앱에서 복잡한 상호작용을 레이아웃을 시각적으로 이해하고 동작을 지시하여 자동화합니다.
사용 사례 예시:
"AI 에이전트가 전자 상거래 사이트를 탐색하고 항목을 추가한 후 결제를 완료했으며, UI 변경에 적응하여 강력한 자동화를 구현했습니다."
비디오 이벤트 감지
긴 Video 스트림을 분석하여 특정 이벤트, 객체 또는 활동을 정확한 타임스탬프와 요약과 함께 감지합니다.
사용 사례 예시:
"보안 영상을 모니터링하여 무단 접근 사례를 식별하고 관련 Video 클립과 함께 경고를 생성했습니다."
상호작용 STEM 학습
교과서, 다이어그램 또는 필기 노트의 문제에 대한 단계별 솔루션을 제공하여 STEM 교육을 강화합니다.
사용 사례 예시:
"다이어그램과 방정식을 분석하여 도전적인 물리 문제를 해결하고 자세한 단계별 도출을 제공했습니다."
메타데이터
사양
주
Deprecated
건축
Multimodal Transformer
교정된
네
전문가의 혼합
아니요
총 매개변수
32B
활성화된 매개변수
32B
추론
아니요
Precision
FP8
콘텍스트 길이
131K
Max Tokens
131K
다른 모델과 비교
이 Model이 다른 것들과 어떻게 비교되는지 보세요.

Qwen
chat
Qwen3-VL-32B-Instruct
출시일: 2025. 10. 21.
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
출시일: 2025. 10. 21.
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
출시일: 2025. 10. 15.
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
출시일: 2025. 10. 15.
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
출시일: 2025. 10. 4.
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
출시일: 2025. 10. 4.
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
출시일: 2025. 10. 5.
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
출시일: 2025. 10. 11.
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
출시일: 2025. 8. 13.
$
0.29
/ Video
