
Moonshot AI
Text Generation
Kimi-K2.5
출시일: 2026. 1. 30.
Kimi K2.5는 오픈 소스, 네이티브 Multimodal 에이전틱 Model로, Kimi-K2-Base 위에 약 15조 개의 혼합된 시각 및 Text token 을 지속적으로 사전 학습하여 구축되었습니다. 1T-파라미터 MoE 아키텍처(32B 활성)와 256K 컨텍스트 길이를 가지고 Vision과 언어 이해를 원활하게 통합하며, 고급 에이전틱 기능을 제공하여 인스턴트 및 사고 모드, 대화 및 에이전틱 패러다임을 모두 지원합니다....
Total Context:
262K
Max output:
262K
Input:
$
0.55
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
출시일: 2025. 12. 8.
GLM-4.6V는 동일한 매개변수 규모의 모델 중 시각적 이해에서 SOTA (State-of-the-Art) 정확도를 달성합니다. 처음으로, 시각적 모델 아키텍처에 Function Call 기능을 본질적으로 통합하여 "시각적 인식"과 "실행 가능한 행동" 간의 격차를 해소합니다. 이는 실제 비즈니스 시나리오에서 다중 모달 에이전트를 위한 통합된 기술적 기반을 제공합니다. 또한, 시각적 컨텍스트 창이 128k로 확장되어 긴 비디오 스트림 처리와 고해상도 멀티 이미지 분석을 지원합니다....
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
출시일: 2025. 10. 21.
Qwen3-VL은 Qwen3 시리즈의 vision-language Model로, 다양한 vision-language(VL) 벤치마크에서 state-of-the-art(SOTA) 성능을 달성하고 있습니다. 이 Model은 최대 메가픽셀 수준의 고해상도 Image Input을 지원하며, 일반적인 시각적 이해, 다국어 OCR, 세밀한 시각적 기준 설정 및 시각적 대화에서 강력한 기능을 가지고 있습니다. Qwen3 시리즈의 일환으로서, 이는 강력한 언어 기반을 물려받아 복잡한 지시를 이해하고 실행할 수 있습니다....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
출시일: 2025. 10. 21.
Qwen3-VL-Thinking은 복잡한 시각적 추론 작업에 특별히 최적화된 Qwen3-VL 시리즈의 한 버전입니다. '생각 모드'를 통합하여 최종 답변을 제공하기 전에 상세한 중간 추론 단계(Chain-of-Thought)를 생성할 수 있습니다. 이 설계는 시각 질문 응답(VQA) 및 다단계 논리, 계획 및 심층 분석이 필요한 기타 Vision-언어 작업에서 Model의 성능을 크게 향상시킵니다....
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
출시일: 2025. 10. 15.
Qwen3-VL-8B-Instruct는 Qwen3 시리즈의 Vision-언어 Model로서, 일반적인 시각 이해, 시각 중심 대화 및 이미지 내 다국어 Text 인식에서 강력한 능력을 보여줍니다....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Thinking
출시일: 2025. 10. 15.
Qwen3-VL-8B-Thinking은 Qwen3 시리즈의 Vision-Language Model로, 복잡한 추론이 필요한 시나리오에 최적화되어 있습니다. 이 Thinking 모드에서 모델은 최종 답변을 제공하기 전에 단계별 사고와 추론을 수행합니다....
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
출시일: 2025. 10. 4.
Qwen3-VL-235B-A22B-Instruct는 235B 매개변수의 전문가 혼합(MoE) 비전-언어 모델로, 22B 활성화된 매개변수를 가지고 있습니다. 이는 Qwen3-VL-235B-A22B의 지침 조정 버전이며, Chat 애플리케이션에 맞춰 조정되었습니다....
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
출시일: 2025. 10. 4.
Qwen3-VL-235B-A22B-Thinking은 Qwen3-VL 시리즈 모델 중 하나로, 추론이 강화된 Thinking 에디션입니다. 이 모델은 STEM, 수학, 인과 분석, 논리적이고 증거 기반의 답변을 포함하여 많은 멀티모달(Multimodal) 추론 벤치마크에서 최첨단(SOTA) 결과를 달성합니다. 235B의 총 매개 변수와 22B의 활성 매개 변수를 갖춘 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 특징으로 합니다....
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
출시일: 2025. 10. 5.
Qwen3-VL 시리즈는 우수한 Text 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 문맥 길이, 향상된 공간 및 Video 역학 이해, 더 강력한 에이전트 상호작용 능력을 제공합니다. 엣지에서 클라우드로 확장되는 Dense 및 MoE 아키텍처에서 사용할 수 있으며, Instruct 및 추론 강화 Thinking 에디션으로 제공됩니다....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
출시일: 2025. 10. 11.
Qwen3-VL 시리즈는 우수한 Text 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 문맥 길이, 향상된 공간 및 Video 역학 이해, 더 강력한 에이전트 상호작용 능력을 제공합니다. 엣지에서 클라우드로 확장되는 Dense 및 MoE 아키텍처에서 사용할 수 있으며, Instruct 및 추론 강화 Thinking 에디션으로 제공됩니다....
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Z.ai
Text Generation
GLM-4.5V
출시일: 2025. 8. 13.
GLM-V 계열 모델의 일부인 GLM-4.5V는 ZhipuAI의 기본 모델 GLM-4.5-Air를 기반으로 하여 이미지, 비디오 및 문서 이해와 같은 작업에서 SOTA 성능을 달성하고 GUI 에이전트 작업도 수행합니다....
Total Context:
66K
Max output:
66K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Captioner
출시일: 2025. 10. 4.
Qwen3-Omni-30B-A3B-Captioner는 Alibaba의 Qwen 팀에서 Qwen3 시리즈의 일환으로 개발한 Vision-언어 Model (VLM)입니다. 이는 고품질, 상세하고 정확한 이미지 캡션 생성을 위해 특별히 설계되었습니다. 30B 총 파라미터 전문가 혼합(MoE) 아키텍처 기반의 이 모델은 이미지 내용을 깊이 이해하고 그것을 풍부하고 자연스러운 언어 Text로 번역할 수 있습니다....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Instruct
출시일: 2025. 10. 4.
Qwen3-Omni-30B-A3B-Instruct는 Alibaba의 Qwen 팀이 제공하는 최신 Qwen3 시리즈의 일원입니다. 이는 300억 개의 총 매개변수와 30억 개의 활성 매개변수를 가진 전문화된 전문가 집합(MoE) Model로, 뛰어난 성능을 유지하면서도 Inference 비용을 효과적으로 줄입니다. 이 Model은 고품질, 다중 출처, 다국어 데이터로 학습되어 다국어 대화와 같은 기본 기능뿐만 아니라 코드, 수학에서도 뛰어난 성능을 보여줍니다....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Thinking
출시일: 2025. 10. 4.
Qwen3-Omni-30B-A3B-Thinking은 Qwen3-Omni 전체 모달 모델의 "Thinker-Talker" 아키텍처 내의 핵심 "Thinker" 구성 요소입니다. 이 구성 요소는 text, audio, images, video를 포함한 다중모달 inputs를 처리하고 복잡한 연쇄 사고 추론을 실행하도록 특별히 설계되었습니다. 이 시스템의 추론 두뇌로서, 이 model은 모든 입력을 공통적인 표현 공간으로 통합하여 이해와 분석을 가능하게 하지만, output은 text 전용입니다. 이 설계는 이미지로 제시된 수학적 문제와 같이 깊은 사고와 교차 모달 이해가 필요한 복잡한 문제를 해결하는 데 뛰어나기 때문에, 전체 Qwen3-Omni 아키텍처의 강력한 인지 능력의 핵심 요소가 됩니다....
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

StepFun
Text Generation
step3
출시일: 2025. 8. 6.
Step3는 최첨단 멀티모달 추론 Model이며, StepFun에서 개발했습니다. 321B의 총 매개변수와 38B의 활성 매개변수로 구성된 Mixture-of-Experts (MoE) 아키텍처에 기반하고 있습니다. 이 Model은 비전-언어 추론에서 최고 수준의 성능을 제공하면서 디코딩 비용을 최소화하도록 엔드 투 엔드로 설계되었습니다. Multi-Matrix Factorization Attention (MFA)와 Attention-FFN Disaggregation (AFD)의 공동 설계를 통해 Step3는 주력 가속기와 저급 가속기 모두에서 뛰어난 효율성을 유지합니다. 사전 학습 동안 Step3는 20T 이상의 Text tokens와 4T 이미지-Text 혼합 tokens를 처리했으며, 10개 이상의 언어를 걸쳐 있습니다. 이 Model은 수학, 코드, 멀티모달리티를 포함한 다양한 벤치마크에서 오픈 소스 모델의 최신 성능을 달성했습니다....
Total Context:
66K
Max output:
66K
Input:
$
0.57
/ M Tokens
Output:
$
1.42
/ M Tokens

Z.ai
Text Generation
GLM-4.1V-9B-Thinking
출시일: 2025. 7. 4.
GLM-4.1V-9B-Thinking은 Zhipu AI와 칭화대학교 KEG 연구소에서 공동으로 출시한 오픈 소스 Vision-Language Model (VLM)로, 범용 멀티모달 추론을 향상시키기 위해 설계되었습니다. GLM-4-9B-0414 기반 모델에 구축되어 '사고 패러다임'을 도입하고 커리큘럼 샘플링을 통한 강화 학습 (RLCS)을 활용하여 복잡한 작업에서 그 능력을 크게 향상시킵니다. 9B-파라미터 모델로서, 유사한 크기의 모델 중에서 최첨단 성능을 달성하며, 성능은 훨씬 더 큰 72B-파라미터 Qwen-2.5-VL-72B와 비교할 만하거나 이를 능가하기도 합니다. 이 모델은 STEM 문제 해결, Video 이해, 긴 문서 이해 등 다양한 작업에서 뛰어난 성능을 발휘하며, 최대 4K 해상도와 임의의 비율의 이미지를 처리할 수 있습니다....
Total Context:
66K
Max output:
66K
Input:
$
0.035
/ M Tokens
Output:
$
0.14
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
출시일: 2025. 3. 24.
Qwen2.5-VL-32B-Instruct는 Qwen 팀에서 출시한 다중 모달 대형 언어 모델로, Qwen2.5-VL 시리즈의 일부입니다. 이 Model은 일반 객체 인식에 능숙할 뿐만 아니라 Text, 차트, 아이콘, 그래픽 및 이미지 내 레이아웃을 분석하는 데 매우 능합니다. 이는 도구를 추론하고 동적으로 지시할 수 있는 시각적 에이전트 역할을 하며, 컴퓨터와 전화기를 사용할 수 있습니다. 또한 이 Model은 이미지 내 객체를 정확하게 로컬화하고, 송장 및 표와 같은 데이터에 대한 구조화된 Output을 생성할 수 있습니다. 이전 버전 Qwen2-VL과 비교하여, 이 버전은 강화 학습을 통해 수학적 및 문제 해결 능력이 향상되었으며, 인간의 선호도에 더 잘 맞추어지도록 응답 스타일이 조정되었습니다....
Total Context:
131K
Max output:
131K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
출시일: 2025. 1. 28.
Qwen2.5-VL은 Qwen2.5 시리즈의 Vision-language Model로 여러 측면에서 상당한 향상을 보여줍니다: 강력한 비주얼 이해력을 갖추고 공통 사물을 인식하면서 이미지 내의 텍스트, 차트, 레이아웃을 분석할 수 있으며, 논리적 사고와 도구를 동적으로 지시할 수 있는 비주얼 에이전트로 기능합니다. 그것은 1시간 이상 길이의 Video를 이해하고 주요 이벤트를 포착할 수 있으며, 이미지 내 사물을 정확히 찾아 경계 상자 또는 포인트를 생성할 수 있습니다. 또한 송장 및 양식과 같은 스캔된 데이터에 대한 구조적 결과물을 지원합니다. 이 Model은 Image, Video, 에이전트 작업을 포함한 다양한 벤치마크에서 우수한 성능을 보여줍니다....
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-7B-Instruct
출시일: 2025. 1. 28.
Qwen2.5-VL은 Qwen 시리즈의 새로운 구성원으로, 강력한 시각적 이해 능력을 갖추고 있습니다. 이 모델은 이미지 내 텍스트, 차트 및 레이아웃을 분석하고, 긴 동영상을 이해하며, 이벤트를 포착할 수 있습니다. 또한 추론, 도구 조작, 다중 형식 객체 로컬라이제이션 지원 및 구조화된 Outputs 생성을 할 수 있습니다. 이 Model은 동영상 이해에서 동적 해상도 및 프레임 속도 학습을 위해 최적화되었으며, 시각 인코더의 효율성을 개선하였습니다....
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens
DeepSeek
Text Generation
deepseek-vl2
출시일: 2024. 12. 13.
DeepSeek-VL2는 4.5B 활성 매개변수만으로 우수한 성능을 달성하기 위해 희소 활성 MoE 구조를 사용하여 DeepSeekMoE-27B를 기반으로 개발된 혼합 전문가(MoE) Vision-언어 Model입니다. 이 Model은 시각적 질문 응답, 광학 문자 인식, 문서/표/차트 이해 및 시각적 정지 등의 다양한 작업에서 뛰어난 성능을 발휘합니다. 기존의 오픈 소스 밀집 Model 및 MoE 기반 Model과 비교하여 동일하거나 더 적은 활성 매개변수를 사용하여 경쟁력 있는 또는 최첨단 성능을 보여줍니다....
Total Context:
4K
Max output:
4K
Input:
$
0.15
/ M Tokens
Output:
$
0.15
/ M Tokens

