
Z.ai
Text Generation
GLM-4.7
GLM-4.7은 Zhipu의 차세대 플래그십 Model로, 총 355B 파라미터와 32B 활성화 파라미터를 가지고 있으며, 일반 대화, 추론 및 에이전트 기능에서 종합적인 업그레이드를 제공합니다. 응답은 더 간결하고 자연스러워졌으며, 글쓰기에서는 더욱 몰입감을 느낄 수 있습니다. 도구 호출 지침도 더 신뢰할 수 있게 따르며, 인공물의 프론트엔드 마감 처리와 에이전트 코드의 효과성, 장기간 과제 완료 효율성도 더욱 개선되었습니다....
Total Context:
205K
Max output:
205K
Input:
$
0.42
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.2
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2
DeepSeek-V3.2는 고도의 계산 효율성, 뛰어난 추론 및 에이전트 성능을 조화시키는 모델입니다. 이 접근 방식은 세 가지 주요 기술적 돌파구를 기반으로 합니다: DeepSeek Sparse Attention (DSA)은 계산 복잡성을 상당히 줄이면서도 모델 성능을 유지하는 효율적인 주의 메커니즘으로, 특히 긴 문맥 시나리오에 최적화되어 있습니다; Scalable Reinforcement Learning Framework는 GPT-5와 비교할 만한 성능과 Gemini-3.0-Pro의 고성능 변형과 동등한 추론 능력을 가능하게 합니다; 그리고 대규모 에이전트 태스크 합성 파이프라인은 도구 사용 시나리오에 추론을 통합하여 복잡한 상호작용 환경에서의 규정 준수와 일반화를 향상시킵니다. 이 모델은 2025 국제 수학 올림피아드(IMO)와 국제 정보 올림피아드(IOI)에서 금메달 성적을 달성했습니다....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.42
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2-Exp
DeepSeek-V3.2-Exp는 DeepSeek Model의 실험 버전으로, V3.1-Terminus를 기반으로 구축되었습니다. 긴 컨텍스트에 대해 더 빠르고 효율적인 학습 및 Inference를 위해 DeepSeek Sparse Attention(DSA)를 선보입니다....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.41
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus는 V3.1의 강점 위에 사용자 피드백을 반영하여 업데이트된 버전입니다. 언어 일관성을 향상시켜 중국어-영어 혼합 텍스트와 가끔 발생하는 이상한 문자를 줄였습니다. 또한, 더욱 강력한 코드 에이전트 및 검색 에이전트 성능으로 업그레이드되었습니다....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1
DeepSeek-V3.1은 사고 모드와 비사고 모드를 모두 지원하는 하이브리드 Model입니다. 후속 훈련 최적화를 통해 도구 사용과 에이전트 작업에서 Model의 성능이 크게 향상되었습니다. DeepSeek-V3.1-Think는 DeepSeek-R1-0528에 비해 유사한 수준의 답변 품질을 달성하면서도 더 빠르게 응답합니다....
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3
DeepSeek-V3-0324은 이전 버전인 DeepSeek-V3에 비해 여러 주요 측면에서 눈에 띄는 개선을 보여주며, 여기에는 추론 성능의 큰 향상, 더 강력한 프론트엔드 개발 기술, 그리고 더 스마트한 도구 사용 능력이 포함됩니다....
Total Context:
164K
Max output:
164K
Input:
$
0.25
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1
DeepSeek-R1-0528은(는) 업그레이드된 Model로서 복잡한 추론 작업을 처리하는 데 있어 상당한 개선을 보여주며, 환각률 감소, 기능 호출에 대한 향상된 지원, 그리고 바이브 코딩을 위한 더 나은 경험을 제공합니다. O3 및 Gemini 2.5 Pro와 비교할 만한 성능을 달성합니다....
Total Context:
164K
Max output:
164K
Input:
$
0.5
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.18
/ M Tokens
OpenAI
Text Generation
gpt-oss-120b
gpt-oss 시리즈는 강력한 추론, 에이전트 작업 및 다재다능한 개발자 사용 사례를 위해 OpenAI가 설계한 공개 가중치 모델입니다. gpt-oss-120b는 생산, 범용, 고도의 추론 사용 사례를 위해 설계되었으며, NVIDIA H100이나 AMD MI300X와 같은 단일 80GB GPU에 적합합니다....
Total Context:
131K
Max output:
8K
Input:
$
0.05
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.45
/ M Tokens
OpenAI
Text Generation
gpt-oss-20b
gpt-oss 시리즈는 강력한 추론, 행위적 작업 및 다양한 개발자 사용 사례를 위해 설계된 OpenAI의 오픈 가중치 모델입니다. gpt-oss-20b는 낮은 대기 시간 및 로컬 또는 전문화된 사용 사례를 위해 설계되었습니다....
Total Context:
131K
Max output:
8K
Input:
$
0.04
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.18
/ M Tokens

Z.ai
Text Generation
GLM-4.5-Air
GLM-4.5 시리즈 모델은 지능형 에이전트를 위해 설계된 기본 Model입니다. GLM-4.5-Air는 총 1060억 매개변수와 120억 활성 매개변수를 갖춘 더 컴팩트한 디자인을 채택하고 있습니다. 또한, 사고 모드와 비사고 모드를 모두 제공하는 하이브리드 추론 모델입니다....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.86
/ M Tokens

inclusionAI
Text Generation
Ling-flash-2.0
Ling-flash-2.0은 InclusionAI에서 제작한 언어 Model로 총 1000억 개의 매개변수를 가지고 있습니다. 이 중 61억 개는 token당 활성화되며, 48억 개는 비-Embedding입니다. Ling 2.0 아키텍처 시리즈의 일환으로서, 가벼우면서도 강력한 전문가 혼합(Mixture-of-Experts, MoE) Model로 설계되었습니다. 이 Model은 40B 레벨의 밀집 Model 및 다른 더 큰 MoE Model과 비교하여 성능을 비슷하거나 그 이상으로 제공할 것을 목표로 하지만, 활성화되는 매개변수 수는 상당히 적습니다. 이 Model은 극한의 아키텍처 디자인 및 훈련 방법을 통해 높은 성능과 효율성을 달성하는 데 중점을 둔 전략을 나타냅니다....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-480B-A35B
Qwen3-Coder-480B-A35B-Instruct is the most agentic code model released by Alibaba to date. It is a Mixture-of-Experts (MoE) model with 480 billion total parameters and 35 billion activated parameters, balancing efficiency and performance. The model natively supports a 256K (approximately 262,144) token context length, which can be extended up to 1 million tokens using extrapolation methods like YaRN, enabling it to handle repository-scale codebases and complex programming tasks. Qwen3-Coder is specifically designed for agentic coding workflows, where it not only generates code but also autonomously interacts with developer tools and environments to solve complex problems. It has achieved state-of-the-art results among open models on various coding and agentic benchmarks, with performance comparable to leading models like Claude Sonnet 4. Alongside the model, Alibaba has also open-sourced Qwen Code, a command-line tool designed to fully unleash its powerful agentic coding capabilities...
Total Context:
262K
Max output:
262K
Input:
$
0.25
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-30B-A3B-Instruct는 Alibaba의 Qwen 팀이 개발한 Qwen3 시리즈의 코드 Model입니다. 간소화되고 최적화된 Model로서 뛰어난 성능과 효율성을 유지하면서 향상된 코딩 기능에 중점을 둡니다. Agentic Coding, Agentic Browser-Use 및 기타 기본 코딩 작업과 같은 복잡한 작업에서 오픈 소스 Model 중에서 상당한 성능 이점을 보여줍니다. 이 Model은 기본적으로 256K tokens의 긴 컨텍스트를 지원하며 최대 1M tokens까지 확장할 수 있어 더 나은 리포지토리 규모의 이해와 처리가 가능합니다. 또한 Qwen Code 및 CLINE과 같은 플랫폼에 대한 강력한 에이전틱 코딩 지원을 제공하며, 특별히 설계된 함수 호출 형식을 제공합니다....
Total Context:
262K
Max output:
262K
Input:
$
0.07
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Instruct-2507은 비사고 모드의 Qwen3-30B-A3B 업데이트 버전입니다. 이는 305억 총 파라미터와 33억 활성화 파라미터를 가진 전문가 혼합 모델(Mixture-of-Experts (MoE) Model)입니다. 이 버전은 주요 개선사항을 특징으로 하고 있으며, 지시 사항 준수, 논리적 추론, 텍스트 이해, 수학, 과학, 코딩 및 도구 사용과 같은 일반적인 능력에서 상당한 향상을 포함합니다. 또한 다양한 언어에 걸쳐 장기적인 지식 범위에서 상당한 발전을 보여주며, 주관적이고 개방적인 과제에서 사용자 선호도에 맞춰 더 나은 정렬을 제공하여 더 유용한 응답과 높은 품질의 텍스트 생성이 가능합니다. 게다가, 장기 문맥 이해 능력이 256K로 강화되었습니다. 이 Model은 비사고 모드만 지원하며 Output에서 `<think></think>` 블록을 생성하지 않습니다....
Total Context:
262K
Max output:
262K
Input:
$
0.09
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.3
/ M Tokens
ByteDance
Text Generation
Seed-OSS-36B-Instruct
Seed-OSS는 ByteDance Seed 팀에서 개발한 일련의 오픈 소스 대형 언어 모델로, 강력한 장기 컨텍스트 처리, 추론, 에이전트 기능 및 범용 능력을 위해 설계되었습니다. 이 시리즈 내에서 Seed-OSS-36B-Instruct는 360억 개의 매개변수를 가진 명령 조정된 Model로, 원활한 초장 컨텍스트 길이를 지원하여 방대한 문서나 복잡한 코드베이스를 한 번에 처리할 수 있습니다. 이 Model은 추론, 코드 생성, 에이전트 작업(도구 사용 등)에 맞게 특별히 최적화되어 있으며, 균형 잡힌 우수한 범용 능력을 유지합니다. 이 Model의 핵심 기능 중 하나는 'Thinking Budget' 기능으로, 사용자가 필요에 따라 추론 길이를 유연하게 조정할 수 있어 실제 응용 프로그램에서 Inference 효율성을 효과적으로 향상시킵니다....
Total Context:
262K
Max output:
262K
Input:
$
0.21
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

Tencent
Text Generation
Hunyuan-A13B-Instruct
Hunyuan-A13B-Instruct는 80B 매개변수 중 단 13B만 활성화하면서도 주류 벤치마크에서 더 큰 LLM과 맞먹습니다. 이는 하이브리드 추론을 제공합니다: 저지연 “빠른” 모드 또는 고정밀 “느린” 모드, 호출당 전환 가능합니다. 네이티브 256 K-token 컨텍스트는 책 길이의 문서를 열화 없이 소화할 수 있게 해줍니다. 에이전트 기술은 BFCL-v3, τ-Bench 및 C3-Bench 리더십에 맞춰 조정되어 있으며, 이를 훌륭한 자율형 어시스턴트 백본으로 만듭니다. 그룹화된 쿼리 주의력 및 다형식 양자화는 메모리 부담이 적고 GPU 효율적인 Inference를 위해 실사용 배포 시 지원하며, 내장된 다국어 지원과 견고한 안전 정렬로 기업급 애플리케이션에 적합합니다....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-32B
Qwen3-32B는 최신 대규모 언어 모델로, Qwen 시리즈에서 32.8B 파라미터를 보유하고 있습니다. 이 모델은 독창적으로 사고 모드(복잡한 논리적 추론, 수학 및 코딩)를 일반 대화용 비사고 모드로 원활하게 전환할 수 있도록 지원합니다. 수학, 코드 생성 및 상식적 논리 추론에서 이전 QwQ와 Qwen2.5 지시 모델을 뛰어넘는 크게 향상된 추론 능력을 보여줍니다. 이 모델은 창의적 글쓰기, 롤플레잉 및 다중 턴 대화에서 인간 선호도 조정에 뛰어납니다. 또한 100개 이상의 언어와 방언을 강력한 다국어 지시 따름 및 번역 기능을 통해 지원합니다....
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-14B
Qwen3-14B는 14.8B 매개변수를 갖춘 Qwen 시리즈의 최신 대형 언어 모델입니다. 이 Model은 복잡한 논리적 추론, 수학, 코딩을 위한 사고 모드와 효율적이고 일반적인 대화를 위한 비사고 모드 간의 원활한 전환을 독특하게 지원합니다. 이는 수치, 코드 생성 및 상식적 논리 추론에서 이전 QwQ 및 Qwen2.5 교육 모델을 능가하는 상당히 향상된 추론 능력을 보여줍니다. 이 Model은 창의적 글쓰기, 롤플레잉 및 다중 턴 대화에 대한 인간 선호도 조정에 뛰어난 능력을 발휘합니다. 또한 강력한 다국어 지침 준수 및 번역 기능을 통해 100개 이상의 언어와 방언을 지원합니다....
Total Context:
131K
Max output:
131K
Input:
$
0.07
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-8B
Qwen3-8B는 Qwen 시리즈의 최신 대형 언어 모델로, 8.2B 매개변수를 가지고 있습니다. 이 Model은 독특하게 복잡한 논리적 추론, 수학, 코딩을 위한 사고 모드와 효율적이고 일반적인 대화를 위한 비사고 모드 간의 원활한 전환을 지원합니다. 이 모델은 수학, 코드 생성 및 상식적인 논리적 추론에서 이전 QwQ 및 Qwen2.5 지시 모델을 능가하는 상당히 향상된 추론 능력을 보여줍니다. 이 Model은 창의적 글쓰기, 역할극 및 다중 회전 대화에 대한 인간 선호 정렬에서 뛰어난 성과를 보입니다. 또한, 100개 이상의 언어 및 방언을 지원하며 강력한 다국어 지침 따르기 및 번역 기능을 제공합니다....
Total Context:
131K
Max output:
131K
Input:
$
0.06
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.06
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-8B
Qwen3-Reranker-8B는 Qwen3 시리즈에서 80억 개의 매개변수를 가진 Text 재정렬 Model입니다. 이 Model은 검색 결과의 품질을 개선하고 정제하기 위해 설계되었으며, 쿼리에 대한 관련성을 기반으로 문서를 정확하게 재정렬합니다. 강력한 Qwen3 기초 Model을 기반으로 구축되어, 최대 32k의 문맥 길이로 긴 Text를 이해하는 데 탁월하고 100개 이상의 언어를 지원합니다. Qwen3-Reranker-8B Model은 다양한 Text 및 코드 검색 시나리오에서 최첨단 성능을 제공하는 유연한 시리즈의 일부입니다....
$
0.04
/ M Tokens
Input:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-8B
Qwen3-Embedding-8B는 Qwen3 Embedding 시리즈의 최신 독점 Model로, 텍스트 Embedding 및 랭킹 작업을 위해 specifically 설계되었습니다. Qwen3 시리즈의 밀집 기반 모델을 바탕으로 구축된 이 8B 파라미터 Model은 최대 32K의 컨텍스트 길이를 지원하며 최대 4096의 차원으로 Embedding을 생성할 수 있습니다. 이 Model은 100개 이상의 언어를 지원하는 뛰어난 다중언어 기능, 긴 텍스트 이해 및 추론 능력을 물려받았습니다. MTEB 다중언어 리더보드에서 1위를 차지했으며(2025년 6월 5일 기준, 점수 70.58), 텍스트 검색, 코드 검색, 텍스트 분류, 군집화 및 비 텍스트 마이닝을 포함한 다양한 작업에서 최첨단 성능을 보여줍니다. 이 Model은 특정 작업과 시나리오에서 향상된 성능을 위해 유연한 벡터 차원(32에서 4096)과 명령어 인식 기능을 제공합니다....
Input:
$
0.04
/ M Tokens
Input:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-4B
Qwen3-Embedding-4B는 Qwen3 Embedding 시리즈의 최신 독점 Model로, 텍스트 Embedding 및 랭킹 작업을 위해 특별히 설계되었습니다. Qwen3 시리즈의 밀집된 기초 Model을 기반으로 구축된 이 4B 매개변수 Model은 최대 32K까지의 컨텍스트 길이를 지원하며 2560까지 차원의 Embedding을 생성할 수 있습니다. 이 Model은 100개 이상의 언어를 지원하면서 뛰어난 다국어 기능을 상속받았으며, 긴 텍스트 이해 및 추론 능력을 가지고 있습니다. MTEB 다국어 리더보드에서 69.45점의 뛰어난 성능을 달성했으며, 텍스트 검색, 코드 검색, 텍스트 분류, 군집화, 이중 텍스트 마이닝을 포함한 다양한 작업에서 탁월한 결과를 보여줍니다. Model은 특정 작업 및 시나리오에서의 향상된 성능을 위한 유연한 벡터 차원(32에서 2560까지)과 지침 인식 기능을 제공하여 효율성과 효과성 사이에서 최적의 균형을 제공합니다....
Input:
$
0.02
/ M Tokens
Input:
$
text
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-0.6B
Qwen3-Reranker-0.6B는 Qwen3 시리즈의 Text 재순위 지정 Model입니다. 이는 초기 검색 시스템의 결과를 주어진 쿼리에 대한 관련성을 기준으로 문서를 재정렬하여 정제하도록 특별히 설계되었습니다. 6억 개의 매개변수와 32k의 컨텍스트 길이를 가지며, 이 Model은 강력한 다국어(100개 이상의 언어 지원), 긴 Text 이해, 그리고 Qwen3 기반의 추론 능력을 활용합니다. 평가 결과에 따르면 Qwen3-Reranker-0.6B는 MTEB-R, CMTEB-R 및 MLDR을 포함한 다양한 Text 검색 벤치마크에서 강력한 성능을 발휘합니다....
$
0.01
/ M Tokens
Input:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-0.6B
Qwen3-Embedding-0.6B는 Qwen3 Embedding 시리즈에서 최신의 독자적인 Model로, 특히 Text 임베딩 및 랭킹 작업을 위해 설계되었습니다. Qwen3 시리즈의 밀집 기반 Model을 토대로 구축된 이 0.6B 파라미터 Model은 최대 32K까지의 컨텍스트 길이를 지원하며 최대 1024 차원의 임베딩을 생성할 수 있습니다. 이 Model은 100개 이상의 언어를 지원하는 뛰어난 다국어 기능을 상속받아 긴 Text 이해 및 추론 능력을 갖추고 있습니다. MTEB 다국어 리더보드에서 강력한 성능(점수 64.33)을 달성하고, Text 검색, 코드 검색, Text 분류, 클러스터링, 이중텍스트 마이닝을 포함한 다양한 작업에서 우수한 결과를 보여줍니다. 이 Model은 유연한 벡터 차원(32에서 1024까지)과 지시 인식 기능을 제공하여 특정 작업 및 시나리오에서 성능을 향상시켜 효율성과 효과성 모두를 우선시하는 애플리케이션에 이상적인 선택입니다....
Input:
$
0.01
/ M Tokens
Input:
$
text
/ M Tokens

Z.ai
Text Generation
GLM-5.2
GLM-5.2 is Z.ai’s most capable open-source model to date, built for long-horizon agentic engineering with a truly usable 1M-token context window. It keeps project state intact across ultra-long tasks, reducing the need to compress or discard context—the longer the task, the more it can remember and reason....
Total Context:
1049K
Max output:
262K
Input:
$
1.4
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.4
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.7-Code
Kimi K2.7 Code is a coding-focused agentic model built upon Kimi K2.6. With substantial improvements on real-world long-horizon coding tasks, it strengthens end-to-end task completion across complex software engineering workflows while improving token efficiency, reducing thinking-token usage by approximately 30% compared with Kimi K2.6....
Total Context:
262K
Max output:
262K
Input:
$
0.94
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

MiniMaxAI
Text Generation
MiniMax-M3
MiniMax-M3 is MiniMax’s frontier multimodal coding and agentic model, built on the MiniMax Sparse Attention (MSA) architecture. It supports up to a 1M-token context window and accepts image and video inputs. The model is designed for code generation, agentic workflows, tool use, long-context understanding, and multi-step reasoning, showing strong performance on benchmarks such as SWE-Bench Pro, Terminal-Bench 2.1, and MCP Atlas....
Total Context:
1049K
Max output:
131K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.2
/ M Tokens

Nex AGI
Text Generation
Nex-N2-Pro
Nex-N2 is a family of thinking models with Agentic Thinking. They adaptively decide when and how deeply to reason, unifying agent cognition across coding, search, and tool use into a single coherent paradigm. Key Claims - SOTA among open models on SWE-Verified, SWE-Pro, Terminal Bench 2.0, Tau3, WildClawBench, BFCL V4 - Top-tier in agentic coding (end-to-end dev loops), deep search (BrowserComp, Wild Search, FinSearch), and real-world productivity (GDP Val) - Adaptive Thinking: auto-adjusts reasoning depth per step, 30-50% fewer thinking tokens vs always-on, with equal or better performance - Plug-and-play with Claude Code, Cursor, OpenClaw, and agentic harnesses...
Total Context:
262K
Max output:
256K
Input:
$
0.5
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.5
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V4-Pro
DeepSeek-V4-Pro is DeepSeek's flagship open-source MoE model with 1.6T total parameters and 49B activated, purpose-built for frontier-level reasoning, coding, and agentic tasks. Supporting a 1M-token context window and three reasoning effort modes up to Think Max, it achieves top-tier performance on coding benchmarks such as LiveCodeBench and Codeforces — rivaling leading closed-source models — and is released under the MIT License....
Total Context:
1049K
Max output:
393K
Input:
$
1.6
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.135
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V4-Flash
DeepSeek-V4-Flash is DeepSeek's latest open-source MoE model featuring 284B total parameters with only 13B activated during inference, delivering high-speed generation without sacrificing capability. With native support for a 1M-token context window and three switchable reasoning modes — Non-Think, Think High, and Think Max — it offers flexible intelligence scaling from everyday tasks to complex reasoning, all under the MIT License....
Total Context:
1049K
Max output:
393K
Input:
$
0.13
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.28
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.6
Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...
Total Context:
262K
Max output:
262K
Input:
$
0.77
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

Tencent
Text Generation
Hy3-preview
Hy3 preview is a 295B-parameter Mixture-of-Experts (MoE) language model from Tencent Hunyuan, built for production-grade agent workloads. With only 21B parameters activated per token and native 256K context support, it handles complex tasks like cross-file code refactoring, long-document analysis, and multi-step tool use, rather than just generating fluent dialogue. Hy3 scores near state-of-the-art on SWE-bench Verified and advanced STEM benchmarks, while offering three inference modes (no_think, think_low, think_high) to dynamically trade off latency and reasoning depth. Its sparse activation architecture delivers competitive intelligence at a significantly lower token cost....
Total Context:
262K
Max output:
262K
Input:
$
0.066
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.26
/ M Tokens

Z.ai
Text Generation
GLM-5.1
GLM-5.1 is Z.ai's next-generation flagship model built for agentic engineering. It is designed to run continuously for hours or even longer, refining its strategy as it works—the longer it runs, the better the results....
Total Context:
205K
Max output:
131K
Input:
$
1.19
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.3
/ M Tokens

Qwen
Text Generation
Qwen3.6-35B-A3B
Qwen3.6-35B-A3B is a large language model from Alibaba's Qwen3.6 series, featuring a Mixture of Experts (MoE) architecture with 35 billion total parameters and approximately 3 billion active parameters per inference, delivering strong performance with efficient compute utilization. The model supports both thinking and non-thinking modes, offering flexible switching between rapid response and deep reasoning...
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.6
/ M Tokens

Qwen
Text Generation
Qwen3.6-27B
Qwen3.6-27B is the first open-weight small-to-mid-sized dense model in the Qwen3.6 series, with targeted improvements for code generation, agent workflows, and real-world development tasks. Compared with Qwen3.5-27B, it delivers clear gains in frontend development, repository-level reasoning, tool use, and complex problem solving, while adding support for preserving reasoning context across turns to reduce redundant reasoning in iterative workflows. It also supports vision understanding with a native context length of 262,144 tokens...
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.2
/ M Tokens

Qwen
Text Generation
Qwen2.5-72B-Instruct
Qwen2.5-72B-Instruct는 Alibaba Cloud에서 발표한 최신 대형 언어 모델 시리즈 중 하나입니다. 이 72B 모델은 코딩과 수학 분야에서 상당한 향상을 보여줍니다. 이 모델은 또한 29개 이상의 언어를 지원하는 다국어 지원을 제공하며, 중국어와 영어를 포함합니다. 이 모델은 특히 JSON 형식에서 지시를 따르고, 구조화된 데이터를 이해하며, 구조화된 Output을 생성하는 데 있어 현저한 개선을 보여줍니다....
Total Context:
33K
Max output:
4K
Input:
$
0.59
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.59
/ M Tokens

Z.ai
Text Generation
GLM-5V-Turbo
GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....
Total Context:
205K
Max output:
131K
Input:
$
1.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

Qwen
Text Generation
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B is the latest vision-language model in the Qwen series, featuring a Mixture-of-Experts (MoE) architecture with 397B total parameters and 17B activated parameters. It natively supports 256K context length, extensible to approximately 1M tokens, with support for 201 languages, unified vision-language understanding, tool calling, and reasoning (thinking) mode...
Total Context:
262K
Max output:
262K
Input:
$
0.39
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.34
/ M Tokens

Qwen
Text Generation
Qwen3.5-122B-A10B
Qwen3.5-122B-A10B is a native multimodal large language model from the Qwen team, with 122B total parameters and only 10B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 256K context length extensible up to ~1M tokens. Through early fusion training, it achieves unified vision-language capabilities supporting text, image, and video understanding, with strong performance across knowledge, reasoning, coding, agents, visual understanding, and multilingual benchmarks, surpassing GPT-5-mini and Qwen3-235B-A22B on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...
Total Context:
262K
Max output:
262K
Input:
$
0.26
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.08
/ M Tokens

Qwen
Text Generation
Qwen2.5-7B-Instruct
Qwen2.5-7B-Instruct는 Alibaba Cloud에서 출시한 최신 대형 언어 모델 시리즈 중 하나입니다. 이 7B 모델은 코딩 및 수학과 같은 분야에서 상당한 개선을 보여줍니다. 이 Model은 중국어, 영어를 포함하여 29개 이상의 언어를 지원하는 다국어 지원을 제공합니다. 또한, Model은 명령어 따르기, 구조화된 데이터 이해 및 구조화된 Outputs 생성, 특히 JSON에서 눈에 띄는 향상을 보여줍니다....
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.05
/ M Tokens

Qwen
Text Generation
Qwen3.5-35B-A3B
Qwen3.5-35B-A3B is a native multimodal large language model from the Qwen team, with 35B total parameters and only 3B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...
Total Context:
262K
Max output:
262K
Input:
$
0.24
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.8
/ M Tokens

Qwen
Text Generation
Qwen3.5-27B
Qwen3.5-27B is a native multimodal large language model from the Qwen team with 27B parameters. It features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 256K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks, surpassing Qwen3-235B-A22B and GPT-5-mini on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...
Total Context:
262K
Max output:
262K
Input:
$
0.25
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
Text Generation
Qwen3.5-9B
Qwen3.5-9B is a native multimodal large language model from the Qwen team with 9B parameters. As a lightweight dense model in the Qwen3.5 series, it features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...
Total Context:
262K
Max output:
262K
Input:
$
0.1
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.15
/ M Tokens

MiniMaxAI
Text Generation
MiniMax-M2.5
MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...
Total Context:
197K
Max output:
131K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.2
/ M Tokens

Z.ai
Text Generation
GLM-5
GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....
Total Context:
205K
Max output:
131K
Input:
$
0.95
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.55
/ M Tokens

StepFun
Text Generation
Step-3.5-Flash
Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...
Total Context:
262K
Max output:
66K
Input:
$
0.1
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.3
/ M Tokens
Text Generation
gemma-4-12B-it
Gemma 4 26B is Google DeepMind's latest open-source MoE model, built on a 26B-parameter Mixture of Experts architecture that activates only 3.8B parameters during inference for exceptionally fast token throughput. Purpose-built for advanced reasoning and agentic workflows, it ranks #6 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....
Total Context:
262K
Max output:
262K
Input:
$
0.1
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.3
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.5
Kimi K2.5는 오픈 소스, 네이티브 Multimodal 에이전틱 Model로, Kimi-K2-Base 위에 약 15조 개의 혼합된 시각 및 Text token 을 지속적으로 사전 학습하여 구축되었습니다. 1T-파라미터 MoE 아키텍처(32B 활성)와 256K 컨텍스트 길이를 가지고 Vision과 언어 이해를 원활하게 통합하며, 고급 에이전틱 기능을 제공하여 인스턴트 및 사고 모드, 대화 및 에이전틱 패러다임을 모두 지원합니다....
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.25
/ M Tokens
Text Generation
gemma-4-26B-A4B-it
Gemma 4 26B is Google DeepMind's latest open-source MoE model, built on a 26B-parameter Mixture of Experts architecture that activates only 3.8B parameters during inference for exceptionally fast token throughput. Purpose-built for advanced reasoning and agentic workflows, it ranks #6 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....
Total Context:
262K
Max output:
262K
Input:
$
0.12
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.4
/ M Tokens
Text Generation
gemma-4-31B-it
Gemma 4 31B is Google DeepMind's latest open-source model, built on a 31B dense architecture from the same research foundation as Gemini 3. Purpose-built for advanced reasoning and agentic workflows, it ranks #3 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....
Total Context:
262K
Max output:
262K
Input:
$
0.13
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.4
/ M Tokens

