정보에 대해서Qwen2.5-VL-72B-Instruct
Qwen2.5-VL은 Qwen2.5 시리즈의 Vision-language Model로 여러 측면에서 상당한 향상을 보여줍니다: 강력한 비주얼 이해력을 갖추고 공통 사물을 인식하면서 이미지 내의 텍스트, 차트, 레이아웃을 분석할 수 있으며, 논리적 사고와 도구를 동적으로 지시할 수 있는 비주얼 에이전트로 기능합니다. 그것은 1시간 이상 길이의 Video를 이해하고 주요 이벤트를 포착할 수 있으며, 이미지 내 사물을 정확히 찾아 경계 상자 또는 포인트를 생성할 수 있습니다. 또한 송장 및 양식과 같은 스캔된 데이터에 대한 구조적 결과물을 지원합니다. 이 Model은 Image, Video, 에이전트 작업을 포함한 다양한 벤치마크에서 우수한 성능을 보여줍니다.
Qwen2.5-VL-72B-Instruct의 고급 Vision-언어 기능이 복잡한 실제 문제를 해결하는 방법을 탐구하십시오.
스마트 문서 데이터 추출
송장, 양식 및 차트와 같은 다양한 시각 문서에서 데이터 추출을 자동화하여 비정형 시각 데이터를 구조화되고 실행 가능한 인사이트로 변환합니다.
사용 사례 예시:
"수천 개의 스캔된 의료 기록 양식을 처리하여 환자의 인구통계학적 정보와 의료 기록을 정확하게 추출하고 수작업 데이터 입력을 80% 줄였습니다."
긴 Video 콘텐츠 분석
확장된 Video 콘텐츠(1시간 이상)를 이해하고 분석하여 주요 이벤트, 객체 및 동작을 식별하고 빠른 검토를 위한 관련 세그먼트를 지정합니다.
사용 사례 예시:
"8시간의 제조 라인 영상을 모니터링하여 제품 정렬 오차나 안전 위반과 같은 이상 현상을 자동으로 플래그하고 검토를 위한 정확한 타임스탬프를 기록합니다."
비주얼 UI 자동화
시각적 에이전트로서 웹, 모바일 등 디지털 인터페이스와 상호작용하여 복잡한 작업을 수행하고 시각적 지표에 기반한 워크플로우를 자동화합니다.
사용 사례 예시:
"UI를 시각적으로 탐색하여 웹 포털에서 고객 지원 업무를 자동화하여 반품 처리 및 주문 상태 업데이트를 수행하고 수작업 API 호출을 제거했습니다."
실시간 객체 위치 확인
Images 및 Video 스트림에서 객체를 정확하게 감지하고 식별하여 추적 및 재고 관리에 대한 경계 상자 또는 포인트를 생성합니다.
사용 사례 예시:
"소매 창고 시스템을 구현하여 선반 재고를 모니터링하고 낮은 재고 품목과 그 정확한 위치를 식별하여 재고 정확성을 개선했습니다."
메타데이터
사양
주
Deprecated
건축
Vision-Language Transformer
교정된
아니요
전문가의 혼합
아니요
총 매개변수
72B
활성화된 매개변수
72B
추론
아니요
Precision
FP8
콘텍스트 길이
131K
Max Tokens
4K
다른 모델과 비교
이 Model이 다른 것들과 어떻게 비교되는지 보세요.

Qwen
chat
Qwen3-VL-32B-Instruct
출시일: 2025. 10. 21.
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
chat
Qwen3-VL-32B-Thinking
출시일: 2025. 10. 21.
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Instruct
출시일: 2025. 10. 15.
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
chat
Qwen3-VL-8B-Thinking
출시일: 2025. 10. 15.
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Instruct
출시일: 2025. 10. 4.
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
chat
Qwen3-VL-235B-A22B-Thinking
출시일: 2025. 10. 4.
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Instruct
출시일: 2025. 10. 5.
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
chat
Qwen3-VL-30B-A3B-Thinking
출시일: 2025. 10. 11.
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
image-to-video
Wan2.2-I2V-A14B
출시일: 2025. 8. 13.
$
0.29
/ Video
