최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

Moonshot AI

Text Generation

Kimi-K2.5

출시일: 2026. 1. 30.

Kimi K2.5는 오픈 소스, 네이티브 Multimodal 에이전틱 Model로, Kimi-K2-Base 위에 약 15조 개의 혼합된 시각 및 Text token 을 지속적으로 사전 학습하여 구축되었습니다. 1T-파라미터 MoE 아키텍처(32B 활성)와 256K 컨텍스트 길이를 가지고 Vision과 언어 이해를 원활하게 통합하며, 고급 에이전틱 기능을 제공하여 인스턴트 및 사고 모드, 대화 및 에이전틱 패러다임을 모두 지원합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.55

/ M Tokens

Output:

$

3.0

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M2.1

출시일: 2025. 12. 23.

MiniMax-M2.1은 도구 사용, 명령 수행 및 장기 계획에서 뛰어난, 에이전트 특화 기능을 최적화한 오픈 소스 대형 언어 Model입니다. 이는 다국어 소프트웨어 개발과 복합적인 다단계 워크플로우를 지원하며, SWE-bench Verified에서 74.0점을 기록하고 다국어 시나리오에서 Claude Sonnet 4.5를 능가합니다....

Total Context:

197K

Max output:

131K

Input:

$

0.29

/ M Tokens

Output:

$

1.2

/ M Tokens

Z.ai

Text Generation

GLM-4.7

출시일: 2025. 12. 23.

GLM-4.7은 Zhipu의 차세대 플래그십 Model로, 총 355B 파라미터와 32B 활성화 파라미터를 가지고 있으며, 일반 대화, 추론 및 에이전트 기능에서 종합적인 업그레이드를 제공합니다. 응답은 더 간결하고 자연스러워졌으며, 글쓰기에서는 더욱 몰입감을 느낄 수 있습니다. 도구 호출 지침도 더 신뢰할 수 있게 따르며, 인공물의 프론트엔드 마감 처리와 에이전트 코드의 효과성, 장기간 과제 완료 효율성도 더욱 개선되었습니다....

Total Context:

205K

Max output:

205K

Input:

$

0.42

/ M Tokens

Output:

$

2.2

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2

출시일: 2025. 12. 4.

DeepSeek-V3.2는 고도의 계산 효율성, 뛰어난 추론 및 에이전트 성능을 조화시키는 모델입니다. 이 접근 방식은 세 가지 주요 기술적 돌파구를 기반으로 합니다: DeepSeek Sparse Attention (DSA)은 계산 복잡성을 상당히 줄이면서도 모델 성능을 유지하는 효율적인 주의 메커니즘으로, 특히 긴 문맥 시나리오에 최적화되어 있습니다; Scalable Reinforcement Learning Framework는 GPT-5와 비교할 만한 성능과 Gemini-3.0-Pro의 고성능 변형과 동등한 추론 능력을 가능하게 합니다; 그리고 대규모 에이전트 태스크 합성 파이프라인은 도구 사용 시나리오에 추론을 통합하여 복잡한 상호작용 환경에서의 규정 준수와 일반화를 향상시킵니다. 이 모델은 2025 국제 수학 올림피아드(IMO)와 국제 정보 올림피아드(IOI)에서 금메달 성적을 달성했습니다....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.42

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2-Exp

출시일: 2025. 10. 10.

DeepSeek-V3.2-Exp는 DeepSeek Model의 실험 버전으로, V3.1-Terminus를 기반으로 구축되었습니다. 긴 컨텍스트에 대해 더 빠르고 효율적인 학습 및 Inference를 위해 DeepSeek Sparse Attention(DSA)를 선보입니다....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.41

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

출시일: 2025. 12. 8.

GLM-4.6V는 동일한 매개변수 규모의 모델 중 시각적 이해에서 SOTA (State-of-the-Art) 정확도를 달성합니다. 처음으로, 시각적 모델 아키텍처에 Function Call 기능을 본질적으로 통합하여 "시각적 인식"과 "실행 가능한 행동" 간의 격차를 해소합니다. 이는 실제 비즈니스 시나리오에서 다중 모달 에이전트를 위한 통합된 기술적 기반을 제공합니다. 또한, 시각적 컨텍스트 창이 128k로 확장되어 긴 비디오 스트림 처리와 고해상도 멀티 이미지 분석을 지원합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

0.9

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1-Terminus

출시일: 2025. 9. 29.

DeepSeek-V3.1-Terminus는 V3.1의 강점 위에 사용자 피드백을 반영하여 업데이트된 버전입니다. 언어 일관성을 향상시켜 중국어-영어 혼합 텍스트와 가끔 발생하는 이상한 문자를 줄였습니다. 또한, 더욱 강력한 코드 에이전트 및 검색 에이전트 성능으로 업그레이드되었습니다....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1

출시일: 2025. 8. 25.

DeepSeek-V3.1은 사고 모드와 비사고 모드를 모두 지원하는 하이브리드 Model입니다. 후속 훈련 최적화를 통해 도구 사용과 에이전트 작업에서 Model의 성능이 크게 향상되었습니다. DeepSeek-V3.1-Think는 DeepSeek-R1-0528에 비해 유사한 수준의 답변 품질을 달성하면서도 더 빠르게 응답합니다....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3

출시일: 2024. 12. 26.

DeepSeek-V3-0324은 이전 버전인 DeepSeek-V3에 비해 여러 주요 측면에서 눈에 띄는 개선을 보여주며, 여기에는 추론 성능의 큰 향상, 더 강력한 프론트엔드 개발 기술, 그리고 더 스마트한 도구 사용 능력이 포함됩니다....

Total Context:

164K

Max output:

164K

Input:

$

0.25

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1

출시일: 2025. 5. 28.

DeepSeek-R1-0528은(는) 업그레이드된 Model로서 복잡한 추론 작업을 처리하는 데 있어 상당한 개선을 보여주며, 환각률 감소, 기능 호출에 대한 향상된 지원, 그리고 바이브 코딩을 위한 더 나은 경험을 제공합니다. O3 및 Gemini 2.5 Pro와 비교할 만한 성능을 달성합니다....

Total Context:

164K

Max output:

164K

Input:

$

0.5

/ M Tokens

Output:

$

2.18

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M2

출시일: 2025. 10. 28.

MiniMax-M2는 에이전트를 위한 효율성을 새롭게 정의합니다. 이는 컴팩트하고 빠르며 비용 효율적인 MoE Model(총 2300억 개의 매개변수 중 100억 개의 활성화된 매개변수)로, 코딩 및 에이전트 작업에서 엘리트 성능을 발휘하도록 설계되었습니다. 강력한 일반 지능을 유지하면서 말이죠. 단 100억 개의 활성화된 매개변수로 MiniMax-M2는 오늘날 선도적인 Model에서 기대되는 세련되고 통합적인 도구 사용 성능을 제공하며, 배포 및 확장이 그 어느 때보다 쉽게 이루어질 수 있도록 합니다....

Total Context:

197K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

1.2

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

출시일: 2025. 10. 21.

Qwen3-VL은 Qwen3 시리즈의 vision-language Model로, 다양한 vision-language(VL) 벤치마크에서 state-of-the-art(SOTA) 성능을 달성하고 있습니다. 이 Model은 최대 메가픽셀 수준의 고해상도 Image Input을 지원하며, 일반적인 시각적 이해, 다국어 OCR, 세밀한 시각적 기준 설정 및 시각적 대화에서 강력한 기능을 가지고 있습니다. Qwen3 시리즈의 일환으로서, 이는 강력한 언어 기반을 물려받아 복잡한 지시를 이해하고 실행할 수 있습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

출시일: 2025. 10. 21.

Qwen3-VL-Thinking은 복잡한 시각적 추론 작업에 특별히 최적화된 Qwen3-VL 시리즈의 한 버전입니다. '생각 모드'를 통합하여 최종 답변을 제공하기 전에 상세한 중간 추론 단계(Chain-of-Thought)를 생성할 수 있습니다. 이 설계는 시각 질문 응답(VQA) 및 다단계 논리, 계획 및 심층 분석이 필요한 기타 Vision-언어 작업에서 Model의 성능을 크게 향상시킵니다....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

출시일: 2025. 10. 15.

Qwen3-VL-8B-Instruct는 Qwen3 시리즈의 Vision-언어 Model로서, 일반적인 시각 이해, 시각 중심 대화 및 이미지 내 다국어 Text 인식에서 강력한 능력을 보여줍니다....

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Thinking

출시일: 2025. 10. 15.

Qwen3-VL-8B-Thinking은 Qwen3 시리즈의 Vision-Language Model로, 복잡한 추론이 필요한 시나리오에 최적화되어 있습니다. 이 Thinking 모드에서 모델은 최종 답변을 제공하기 전에 단계별 사고와 추론을 수행합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Output:

$

2.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Instruct

출시일: 2025. 10. 4.

Qwen3-VL-235B-A22B-Instruct는 235B 매개변수의 전문가 혼합(MoE) 비전-언어 모델로, 22B 활성화된 매개변수를 가지고 있습니다. 이는 Qwen3-VL-235B-A22B의 지침 조정 버전이며, Chat 애플리케이션에 맞춰 조정되었습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.3

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Thinking

출시일: 2025. 10. 4.

Qwen3-VL-235B-A22B-Thinking은 Qwen3-VL 시리즈 모델 중 하나로, 추론이 강화된 Thinking 에디션입니다. 이 모델은 STEM, 수학, 인과 분석, 논리적이고 증거 기반의 답변을 포함하여 많은 멀티모달(Multimodal) 추론 벤치마크에서 최첨단(SOTA) 결과를 달성합니다. 235B의 총 매개 변수와 22B의 활성 매개 변수를 갖춘 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 특징으로 합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.45

/ M Tokens

Output:

$

3.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

출시일: 2025. 10. 5.

Qwen3-VL 시리즈는 우수한 Text 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 문맥 길이, 향상된 공간 및 Video 역학 이해, 더 강력한 에이전트 상호작용 능력을 제공합니다. 엣지에서 클라우드로 확장되는 Dense 및 MoE 아키텍처에서 사용할 수 있으며, Instruct 및 추론 강화 Thinking 에디션으로 제공됩니다....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

출시일: 2025. 10. 11.

Qwen3-VL 시리즈는 우수한 Text 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 문맥 길이, 향상된 공간 및 Video 역학 이해, 더 강력한 에이전트 상호작용 능력을 제공합니다. 엣지에서 클라우드로 확장되는 Dense 및 MoE 아키텍처에서 사용할 수 있으며, Instruct 및 추론 강화 Thinking 에디션으로 제공됩니다....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1.0

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Thinking

출시일: 2025. 11. 7.

Kimi K2 Thinking은 최신의 가장 능력 있는 오픈 소스 사고 모델입니다. Kimi K2부터 시작하여 단계별로 추론하면서 도구를 동적으로 호출하는 사고 에이전트로 구축했습니다. 이는 인간의 최후 시험 (HLE), BrowseComp 및 기타 벤치마크에서 새로운 최첨단을 설정하며, 다단계 추론 깊이를 극적으로 확장하고 200–300번의 연속 호출에 걸쳐 안정적인 도구 사용을 유지합니다. 동시에 K2 Thinking은 262k 컨텍스트 윈도우를 갖춘 네이티브 INT4 양자화 Model로, Inference 대기 시간 및 GPU 메모리 사용에서 무손실 감소를 달성합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.55

/ M Tokens

Output:

$

2.5

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct-0905

출시일: 2025. 9. 8.

Kimi K2-Instruct-0905는 최신의 첨단 전문가 혼합(MoE) 언어 Model로, Kimi K2의 최신 버전이자 가장 강력한 버전입니다. 주요 기능으로는 강화된 코딩 능력, 특히 프론트엔드 및 도구 호출, 256k tokens로 확장된 컨텍스트 길이, 다양한 에이전트 스캐폴드와의 개선된 통합이 포함됩니다....

Total Context:

262K

Max output:

262K

Input:

$

0.4

/ M Tokens

Output:

$

2.0

/ M Tokens

OpenAI

Text Generation

gpt-oss-120b

출시일: 2025. 8. 13.

gpt-oss 시리즈는 강력한 추론, 에이전트 작업 및 다재다능한 개발자 사용 사례를 위해 OpenAI가 설계한 공개 가중치 모델입니다. gpt-oss-120b는 생산, 범용, 고도의 추론 사용 사례를 위해 설계되었으며, NVIDIA H100이나 AMD MI300X와 같은 단일 80GB GPU에 적합합니다....

Total Context:

131K

Max output:

8K

Input:

$

0.05

/ M Tokens

Output:

$

0.45

/ M Tokens

OpenAI

Text Generation

gpt-oss-20b

출시일: 2025. 8. 13.

gpt-oss 시리즈는 강력한 추론, 행위적 작업 및 다양한 개발자 사용 사례를 위해 설계된 OpenAI의 오픈 가중치 모델입니다. gpt-oss-20b는 낮은 대기 시간 및 로컬 또는 전문화된 사용 사례를 위해 설계되었습니다....

Total Context:

131K

Max output:

8K

Input:

$

0.04

/ M Tokens

Output:

$

0.18

/ M Tokens

Z.ai

Text Generation

GLM-4.6

출시일: 2025. 10. 4.

GLM-4.5와 비교하여 GLM-4.6은 몇 가지 주요 개선 사항을 가져옵니다. 여기에는 길이가 200K token으로 확장된 더 긴 문맥 창, 뛰어난 코딩 성능, 고급 추론, 더 강력한 에이전트, 그리고 정교한 글쓰기가 포함됩니다....

Total Context:

205K

Max output:

205K

Input:

$

0.39

/ M Tokens

Output:

$

1.9

/ M Tokens

Z.ai

Text Generation

GLM-4.5-Air

출시일: 2025. 7. 28.

GLM-4.5 시리즈 모델은 지능형 에이전트를 위해 설계된 기본 Model입니다. GLM-4.5-Air는 총 1060억 매개변수와 120억 활성 매개변수를 갖춘 더 컴팩트한 디자인을 채택하고 있습니다. 또한, 사고 모드와 비사고 모드를 모두 제공하는 하이브리드 추론 모델입니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.86

/ M Tokens

Z.ai

Text Generation

GLM-4.5V

출시일: 2025. 8. 13.

GLM-V 계열 모델의 일부인 GLM-4.5V는 ZhipuAI의 기본 모델 GLM-4.5-Air를 기반으로 하여 이미지, 비디오 및 문서 이해와 같은 작업에서 SOTA 성능을 달성하고 GUI 에이전트 작업도 수행합니다....

Total Context:

66K

Max output:

66K

Input:

$

0.14

/ M Tokens

Output:

$

0.86

/ M Tokens

inclusionAI

Text Generation

Ling-flash-2.0

출시일: 2025. 9. 18.

Ling-flash-2.0은 InclusionAI에서 제작한 언어 Model로 총 1000억 개의 매개변수를 가지고 있습니다. 이 중 61억 개는 token당 활성화되며, 48억 개는 비-Embedding입니다. Ling 2.0 아키텍처 시리즈의 일환으로서, 가벼우면서도 강력한 전문가 혼합(Mixture-of-Experts, MoE) Model로 설계되었습니다. 이 Model은 40B 레벨의 밀집 Model 및 다른 더 큰 MoE Model과 비교하여 성능을 비슷하거나 그 이상으로 제공할 것을 목표로 하지만, 활성화되는 매개변수 수는 상당히 적습니다. 이 Model은 극한의 아키텍처 디자인 및 훈련 방법을 통해 높은 성능과 효율성을 달성하는 데 중점을 둔 전략을 나타냅니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

inclusionAI

Text Generation

Ling-mini-2.0

출시일: 2025. 9. 10.

Ling-mini-2.0은 MoE 아키텍처를 기반으로 구축된 작지만 높은 성능을 자랑하는 대형 언어 모델입니다. 총 160억 파라미터를 가지고 있지만, token당 활성화되는 것은 14억 파라미터(Embedding 외 7억 8,900만)에 불과해 매우 빠른 생성이 가능합니다. 효율적인 MoE 설계와 대규모 고품질 훈련 데이터 덕분에, 비록 14억 개의 활성화된 파라미터만을 가지고 있지만 Ling-mini-2.0은 여전히 100억 미만의 밀집 LLM 및 더 큰 MoE Model에 비견할 만한 최상급 다운스트림 태스크 성능을 제공합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

inclusionAI

Text Generation

Ring-flash-2.0

출시일: 2025. 9. 29.

Ring-flash-2.0은(는) Ling-flash-2.0-base에 기반한 고성능 사유 Model로서 깊이 최적화되었습니다. 이는 총 100B 매개변수를 가진 전문가 혼합(MoE) Model로서, Inference마다 6.1B만 활성화됩니다. 이 Model은 MoE LLM에서 강화 학습(RL)의 훈련 불안정성 문제를 해결하기 위해 독립적으로 개발된 'icepop' 알고리즘을 활용하여 확장된 RL 학습 사이클 전반에 걸쳐 복잡한 추론 능력을 지속적으로 향상시킵니다. Ring-flash-2.0은 수학 경시 대회, 코드 생성, 논리적 추론을 포함한 도전적인 벤치마크 전반에서 상당한 진전을 보여줍니다. 그 성능은 40B 매개변수 이하의 SOTA 밀집 Model을 넘어서는 동시에, 더 큰 공개 가중치 MoE Model 및 비공개 고성능 사유 Model API와 경쟁합니다. 더욱 놀라운 것은, Ring-flash-2.0은 주로 복잡한 추론을 위해 설계되었지만 창의적 글쓰기에서도 강력한 능력을 보여준다는 것입니다. 효율적인 아키텍처 덕분에 고속 Inference를 달성하여 높은 동시성 시나리오에서 사유 Model의 Inference 비용을 크게 줄입니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Tencent

Text Generation

Hunyuan-MT-7B

출시일: 2025. 9. 18.

훈위안 번역 모델은 번역 Model인 Hunyuan-MT-7B와 앙상블 Model인 Hunyuan-MT-Chimera로 구성됩니다. Hunyuan-MT-7B는 70억 개의 파라미터를 가진 경량 번역 Model로, 소스 Text를 목표 언어로 번역하는 데 사용됩니다. 이 Model은 중국의 5개 소수 민족 언어를 포함한 33개 언어 간의 상호 번역을 지원합니다. WMT25 기계 번역 대회에서는 31개 언어 범주 중 30개에서 1위를 차지하여 뛰어난 번역 역량을 입증했습니다. 번역 작업을 위해 텐센트 훈위안은 사전 학습, 감독된 Fine-tuning, 번역 강화, 앙상블 정제를 포괄하는 종합 교육 프레임워크를 제안하여 유사한 규모의 모델 중 최첨단 성능을 달성했습니다. 이 Model은 계산 효율이 높고 배포가 쉬워 다양한 응용 시나리오에 적합합니다....

Total Context:

33K

Max output:

33K

Input:

$

0.0

/ M Tokens

Output:

$

0.0

/ M Tokens

Qwen

Text Generation

Qwen3-Next-80B-A3B-Instruct

출시일: 2025. 9. 18.

Qwen3-Next-80B-A3B-Instruct는 Alibaba의 Qwen 팀이 출시한 차세대 기초 Model입니다. 이는 궁극의 훈련 및 Inference 효율성을 위해 설계된 새로운 Qwen3-Next 아키텍처를 기반으로 구축되었습니다. 이 Model은 하이브리드 어텐션 메커니즘(게이트 델타넷과 게이트 어텐션), 고희소 혼합 전문가(MoE) 구조 및 다양한 안정성 최적화와 같은 혁신적인 기능을 통합하고 있습니다. 800억 개의 매개변수를 가진 희소 Model로서, Inference 과정에서 token당 약 30억 개의 매개변수만 활성화되어 계산 비용을 크게 절감하고 32K tokens를 초과하는 장문 작업에서 Qwen3-32B Model보다 10배 이상의 처리량을 제공합니다. 이는 범용 작업에 최적화된 인스트럭션 튜닝 버전이며 '사고' 모드를 지원하지 않습니다. 성능 측면에서 일부 벤치마크에서 Qwen의 플래그십 Model인 Qwen3-235B와 비교할 수 있으며, 초장문 시나리오에서 상당한 장점을 보여줍니다....

Total Context:

262K

Max output:

262K

Input:

$

0.14

/ M Tokens

Output:

$

1.4

/ M Tokens

Qwen

Text Generation

Qwen3-Next-80B-A3B-Thinking

출시일: 2025. 9. 25.

Qwen3-Next-80B-A3B-Thinking은 Alibaba의 Qwen 팀에서 복잡한 추론 작업을 위해 특별히 설계된 차세대 기초 Model입니다. 이는 Gated DeltaNet과 Gated Attention을 결합한 Hybrid Attention 메커니즘과 고스파시티 혼합 전문가(MoE) 구조를 사용하여 궁극적인 훈련 및 Inference 효율성을 달성합니다. 800억 개의 매개변수를 가진 Sparse Model로, Inference 도중 약 30억 개의 매개변수만 활성화하여 계산 비용을 크게 줄이고, 32K token을 초과하는 장기 컨텍스트 작업에서 Qwen3-32B 모델보다 10배 이상의 처리량을 제공합니다. 이 'Thinking' 버전은 수학적 증명, 코드 합성, 논리적 분석, 계획과 같은 까다로운 다단계 문제에 최적화되어 있으며, 기본적으로 구조화된 'thinking' 트레이스를 Output 합니다. 성능 면에서, 더 높은 비용의 모델인 Qwen3-32B-Thinking을 능가했으며 여러 벤치마크에서 Gemini-2.5-Flash-Thinking을 능가했습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Captioner

출시일: 2025. 10. 4.

Qwen3-Omni-30B-A3B-Captioner는 Alibaba의 Qwen 팀에서 Qwen3 시리즈의 일환으로 개발한 Vision-언어 Model (VLM)입니다. 이는 고품질, 상세하고 정확한 이미지 캡션 생성을 위해 특별히 설계되었습니다. 30B 총 파라미터 전문가 혼합(MoE) 아키텍처 기반의 이 모델은 이미지 내용을 깊이 이해하고 그것을 풍부하고 자연스러운 언어 Text로 번역할 수 있습니다....

Total Context:

66K

Max output:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.4

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Instruct

출시일: 2025. 10. 4.

Qwen3-Omni-30B-A3B-Instruct는 Alibaba의 Qwen 팀이 제공하는 최신 Qwen3 시리즈의 일원입니다. 이는 300억 개의 총 매개변수와 30억 개의 활성 매개변수를 가진 전문화된 전문가 집합(MoE) Model로, 뛰어난 성능을 유지하면서도 Inference 비용을 효과적으로 줄입니다. 이 Model은 고품질, 다중 출처, 다국어 데이터로 학습되어 다국어 대화와 같은 기본 기능뿐만 아니라 코드, 수학에서도 뛰어난 성능을 보여줍니다....

Total Context:

66K

Max output:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.4

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Thinking

출시일: 2025. 10. 4.

Qwen3-Omni-30B-A3B-Thinking은 Qwen3-Omni 전체 모달 모델의 "Thinker-Talker" 아키텍처 내의 핵심 "Thinker" 구성 요소입니다. 이 구성 요소는 text, audio, images, video를 포함한 다중모달 inputs를 처리하고 복잡한 연쇄 사고 추론을 실행하도록 특별히 설계되었습니다. 이 시스템의 추론 두뇌로서, 이 model은 모든 입력을 공통적인 표현 공간으로 통합하여 이해와 분석을 가능하게 하지만, output은 text 전용입니다. 이 설계는 이미지로 제시된 수학적 문제와 같이 깊은 사고와 교차 모달 이해가 필요한 복잡한 문제를 해결하는 데 뛰어나기 때문에, 전체 Qwen3-Omni 아키텍처의 강력한 인지 능력의 핵심 요소가 됩니다....

Total Context:

66K

Max output:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.4

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-480B-A35B-Instruct

출시일: 2025. 7. 31.

Qwen3-Coder-480B-A35B-Instruct는 현재까지 Alibaba에서 출시한 가장 에이전트 구조의 코드 Model입니다. 이 Model은 4800억의 총 파라미터와 350억의 활성화된 파라미터를 가진 혼합 전문가 (MoE) Model로, 효율성과 성능의 균형을 이루고 있습니다. 이 Model은 자체적으로 256K (대략 262,144) token 컨텍스트 길이를 지원하며, YaRN과 같은 외삽 기법을 사용하여 최대 100만 token까지 확장할 수 있어 저장소 규모의 코드베이스와 복잡한 프로그래밍 작업을 처리할 수 있습니다. Qwen3-Coder는 에이전트 구조의 코딩 워크플로우를 위해 특별히 설계되었으며, 코드 생성뿐만 아니라 복잡한 문제를 해결하기 위해 개발자 도구 및 환경과 자동으로 상호작용합니다. 다양한 코딩 및 에이전트 벤치마크에서 개방형 Model 중 최첨단 결과를 달성하였으며, Claude Sonnet 4와 같은 선도적인 Model과 비교할 만한 성능을 보여줍니다. Model과 함께 Alibaba는 강력한 에이전트 코딩 기능을 완전히 발휘할 수 있도록 설계된 명령줄 도구인 Qwen Code도 오픈 소스화하였습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.25

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-30B-A3B-Instruct

출시일: 2025. 8. 1.

Qwen3-Coder-30B-A3B-Instruct는 Alibaba의 Qwen 팀이 개발한 Qwen3 시리즈의 코드 Model입니다. 간소화되고 최적화된 Model로서 뛰어난 성능과 효율성을 유지하면서 향상된 코딩 기능에 중점을 둡니다. Agentic Coding, Agentic Browser-Use 및 기타 기본 코딩 작업과 같은 복잡한 작업에서 오픈 소스 Model 중에서 상당한 성능 이점을 보여줍니다. 이 Model은 기본적으로 256K tokens의 긴 컨텍스트를 지원하며 최대 1M tokens까지 확장할 수 있어 더 나은 리포지토리 규모의 이해와 처리가 가능합니다. 또한 Qwen Code 및 CLINE과 같은 플랫폼에 대한 강력한 에이전틱 코딩 지원을 제공하며, 특별히 설계된 함수 호출 형식을 제공합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Instruct-2507

출시일: 2025. 7. 30.

Qwen3-30B-A3B-Instruct-2507은 비사고 모드의 Qwen3-30B-A3B 업데이트 버전입니다. 이는 305억 총 파라미터와 33억 활성화 파라미터를 가진 전문가 혼합 모델(Mixture-of-Experts (MoE) Model)입니다. 이 버전은 주요 개선사항을 특징으로 하고 있으며, 지시 사항 준수, 논리적 추론, 텍스트 이해, 수학, 과학, 코딩 및 도구 사용과 같은 일반적인 능력에서 상당한 향상을 포함합니다. 또한 다양한 언어에 걸쳐 장기적인 지식 범위에서 상당한 발전을 보여주며, 주관적이고 개방적인 과제에서 사용자 선호도에 맞춰 더 나은 정렬을 제공하여 더 유용한 응답과 높은 품질의 텍스트 생성이 가능합니다. 게다가, 장기 문맥 이해 능력이 256K로 강화되었습니다. 이 Model은 비사고 모드만 지원하며 Output에서 `<think></think>` 블록을 생성하지 않습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Thinking-2507

출시일: 2025. 7. 31.

Qwen3-30B-A3B-Thinking-2507은 Alibaba의 Qwen 팀에서 출시한 Qwen3 시리즈의 최신 사고 Model입니다. 305억 개의 총 매개 변수와 33억 개의 활성 매개 변수를 가진 Mixture-of-Experts (MoE) Model로서 복잡한 작업의 역량을 강화하는 데 중점을 두고 있습니다. 이 Model은 논리적 추론, 수학, 과학, 코딩 및 일반적으로 인간의 전문 지식이 필요한 학술 벤치마크를 포함한 추론 작업에서 눈에 띄게 향상된 성능을 보여줍니다. 또한 명령 따르기, 도구 사용, Text 생성 및 인간의 선호와의 정렬 등의 일반적인 역량에서도 크게 개선되었습니다. 이 Model은 기본적으로 256K 긴 문맥 이해 기능을 지원하며, 이는 100만 token까지 확장할 수 있습니다. 이 버전은 '사고 모드'를 통해 단계별 추론으로 매우 복잡한 문제를 해결하기 위해 특별히 설계되었으며, 능동적 역량에서도 뛰어납니다....

Total Context:

262K

Max output:

131K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Instruct-2507

출시일: 2025. 7. 23.

Qwen3-235B-A22B-Instruct-2507은 Alibaba Cloud의 Qwen 팀이 개발한 Qwen3 시리즈의 대표 Mixture-of-Experts (MoE) 대형 언어 Model입니다. 이 Model은 총 2,350억 개의 매개변수를 가지고 있으며, 매 포워드 패스당 220억 개가 활성화됩니다. 이는 Qwen3-235B-A22B 비사고 모드의 업데이트된 버전으로 출시되었으며, 지시 사항 따르기, 논리적 추론, Text 이해, 수학, 과학, 코딩 및 도구 사용과 같은 일반적인 기능 향상이 특징입니다. 또한, 다중 언어에서의 긴 꼬리 지식 범위에서 상당한 이점을 제공하며, 주관적이고 개방적인 작업에서 사용자 선호도와 더욱 잘 맞춰져 더욱 도움이 되는 응답과 고품질 Text 생성이 가능하게 합니다. 특히, 광범위한 256K (262,144 tokens) 컨텍스트 창을 본래 지원하여 장기 컨텍스트 이해의 기능을 향상시킵니다. 이 버전은 비사고 모드만을 독점적으로 지원하며, <think> 블록을 생성하지 않으며, 직접적인 Q&A 및 지식 검색과 같은 작업에 대한 더 효율적이고 정확한 응답을 제공하는 것을 목표로 합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Thinking-2507

출시일: 2025. 7. 28.

Qwen3-235B-A22B-Thinking-2507은 Alibaba의 Qwen 팀이 개발한 Qwen3 대형 언어 모델 시리즈의 일원으로, 고도로 복잡한 추론 작업에 특화되어 있습니다. 이 Model은 혼합 전문가(MoE) 아키텍처에 기반하여 총 2350억 개의 매개변수와 토큰당 약 220억 개의 활성화된 매개변수를 가지고 있으며, 계산 효율성을 향상시키면서 강력한 성능을 유지합니다. 전용 'thinking' Model로서 논리적 추론, 수학, 과학, 코딩 및 학술 기준과 같은 인간 전문 지식이 요구되는 작업에서 크게 향상된 성능을 입증하여 오픈 소스 thinking Model 중 최첨단 결과를 달성합니다. 게다가, 이 Model은 지침 준수, 도구 사용 및 Text 생성과 같은 향상된 일반 기능을 제공하며, 256K의 긴 컨텍스트 이해 기능을 본래 지원하여 깊은 추론과 긴 문서 처리가 필요한 시나리오에 이상적입니다....

Total Context:

262K

Max output:

262K

Input:

$

0.13

/ M Tokens

Output:

$

0.6

/ M Tokens

StepFun

Text Generation

step3

출시일: 2025. 8. 6.

Step3는 최첨단 멀티모달 추론 Model이며, StepFun에서 개발했습니다. 321B의 총 매개변수와 38B의 활성 매개변수로 구성된 Mixture-of-Experts (MoE) 아키텍처에 기반하고 있습니다. 이 Model은 비전-언어 추론에서 최고 수준의 성능을 제공하면서 디코딩 비용을 최소화하도록 엔드 투 엔드로 설계되었습니다. Multi-Matrix Factorization Attention (MFA)와 Attention-FFN Disaggregation (AFD)의 공동 설계를 통해 Step3는 주력 가속기와 저급 가속기 모두에서 뛰어난 효율성을 유지합니다. 사전 학습 동안 Step3는 20T 이상의 Text tokens와 4T 이미지-Text 혼합 tokens를 처리했으며, 10개 이상의 언어를 걸쳐 있습니다. 이 Model은 수학, 코드, 멀티모달리티를 포함한 다양한 벤치마크에서 오픈 소스 모델의 최신 성능을 달성했습니다....

Total Context:

66K

Max output:

66K

Input:

$

0.57

/ M Tokens

Output:

$

1.42

/ M Tokens

ByteDance

Text Generation

Seed-OSS-36B-Instruct

출시일: 2025. 9. 4.

Seed-OSS는 ByteDance Seed 팀에서 개발한 일련의 오픈 소스 대형 언어 모델로, 강력한 장기 컨텍스트 처리, 추론, 에이전트 기능 및 범용 능력을 위해 설계되었습니다. 이 시리즈 내에서 Seed-OSS-36B-Instruct는 360억 개의 매개변수를 가진 명령 조정된 Model로, 원활한 초장 컨텍스트 길이를 지원하여 방대한 문서나 복잡한 코드베이스를 한 번에 처리할 수 있습니다. 이 Model은 추론, 코드 생성, 에이전트 작업(도구 사용 등)에 맞게 특별히 최적화되어 있으며, 균형 잡힌 우수한 범용 능력을 유지합니다. 이 Model의 핵심 기능 중 하나는 'Thinking Budget' 기능으로, 사용자가 필요에 따라 추론 길이를 유연하게 조정할 수 있어 실제 응용 프로그램에서 Inference 효율성을 효과적으로 향상시킵니다....

Total Context:

262K

Max output:

262K

Input:

$

0.21

/ M Tokens

Output:

$

0.57

/ M Tokens

Z.ai

Text Generation

GLM-4.1V-9B-Thinking

출시일: 2025. 7. 4.

GLM-4.1V-9B-Thinking은 Zhipu AI와 칭화대학교 KEG 연구소에서 공동으로 출시한 오픈 소스 Vision-Language Model (VLM)로, 범용 멀티모달 추론을 향상시키기 위해 설계되었습니다. GLM-4-9B-0414 기반 모델에 구축되어 '사고 패러다임'을 도입하고 커리큘럼 샘플링을 통한 강화 학습 (RLCS)을 활용하여 복잡한 작업에서 그 능력을 크게 향상시킵니다. 9B-파라미터 모델로서, 유사한 크기의 모델 중에서 최첨단 성능을 달성하며, 성능은 훨씬 더 큰 72B-파라미터 Qwen-2.5-VL-72B와 비교할 만하거나 이를 능가하기도 합니다. 이 모델은 STEM 문제 해결, Video 이해, 긴 문서 이해 등 다양한 작업에서 뛰어난 성능을 발휘하며, 최대 4K 해상도와 임의의 비율의 이미지를 처리할 수 있습니다....

Total Context:

66K

Max output:

66K

Input:

$

0.035

/ M Tokens

Output:

$

0.14

/ M Tokens

BAIDU

Text Generation

ERNIE-4.5-300B-A47B

출시일: 2025. 7. 2.

ERNIE-4.5-300B-A47B는 Baidu에서 Mixture-of-Experts (MoE) 아키텍처를 기반으로 개발한 대형 언어 Model입니다. 이 Model은 총 3000억 개의 파라미터를 가지고 있지만, Inference 동안에는 token당 470억 개의 파라미터만 활성화하여 강력한 성능과 계산 효율성을 균형 있게 유지합니다. ERNIE 4.5 시리즈의 핵심 Model 중 하나로서 PaddlePaddle 심층 학습 프레임워크에서 훈련되었으며, text 이해, 생성, 추론, 코딩과 같은 작업에서 뛰어난 능력을 보여줍니다. 이 Model은 혁신적인 Multimodal 이종 MoE 사전 훈련 방법을 사용하여 text와 시각적 모달리티에 대한 공동 훈련을 통해 전반적인 능력을 효과적으로 향상시켰으며, 지시사항 준수 및 세계 지식 암기에서 두드러진 결과를 나타냅니다. Baidu는 AI 기술 연구와 응용을 촉진하기 위해 이 시리즈의 다른 Model과 함께 이 Model을 오픈 소스로 공개했습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.28

/ M Tokens

Output:

$

1.1

/ M Tokens

Tencent

Text Generation

Hunyuan-A13B-Instruct

출시일: 2025. 6. 30.

Hunyuan-A13B-Instruct는 80B 매개변수 중 단 13B만 활성화하면서도 주류 벤치마크에서 더 큰 LLM과 맞먹습니다. 이는 하이브리드 추론을 제공합니다: 저지연 “빠른” 모드 또는 고정밀 “느린” 모드, 호출당 전환 가능합니다. 네이티브 256 K-token 컨텍스트는 책 길이의 문서를 열화 없이 소화할 수 있게 해줍니다. 에이전트 기술은 BFCL-v3, τ-Bench 및 C3-Bench 리더십에 맞춰 조정되어 있으며, 이를 훌륭한 자율형 어시스턴트 백본으로 만듭니다. 그룹화된 쿼리 주의력 및 다형식 양자화는 메모리 부담이 적고 GPU 효율적인 Inference를 위해 실사용 배포 시 지원하며, 내장된 다국어 지원과 견고한 안전 정렬로 기업급 애플리케이션에 적합합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct

출시일: 2025. 7. 13.

Kimi K2는 예외적인 코딩 및 에이전트 기능을 갖춘 Mixture-of-Experts (MoE) 기반 Model로, 총 1조 개의 매개변수와 320억 개의 활성화된 매개변수를 특징으로 합니다. 일반 지식 추론, 프로그래밍, 수학 및 에이전트 관련 작업을 포함한 벤치마크 평가에서 K2 Model은 다른 주요 오픈 소스 모델을 능가합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.58

/ M Tokens

Output:

$

2.29

/ M Tokens

Moonshot AI

Text Generation

Kimi-Dev-72B

출시일: 2025. 6. 19.

Kimi-Dev-72B는 새롭게 공개된 오픈 소스 코딩 대형 언어 모델로, SWE-bench Verified에서 60.4%의 성과를 달성하며 오픈 소스 Model 중에서도 최첨단 결과를 설정했습니다. 대규모 강화 학습을 통해 최적화되어, Docker에서 실제 코드베이스를 자율적으로 수정하며, 전체 테스트 스위트가 통과될 때만 보상을 받습니다. 이를 통해 모델은 실제 소프트웨어 엔지니어링 표준에 맞춘 정확하고 견고하며 실용적인 솔루션을 제공합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.29

/ M Tokens

Output:

$

1.15

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M1-80k

출시일: 2025. 6. 17.

MiniMax-M1은 456 B 매개변수와 토큰당 45.9 B 활성화를 가진 오픈 웨이트, 대규모 하이브리드 주의 추론 모델입니다. 본래 1 M-token 콘텍스트를 지원하며, 번개 같은 주의로 100 K tokens에서 DeepSeek R1 대비 75%의 FLOPs 절약을 가능하게 하고, MoE 아키텍처를 활용합니다. CISPO와의 효율적인 RL 훈련과 하이브리드 설계를 통해 긴 Input 추론과 실제 소프트웨어 엔지니어링 작업에서 최첨단 성능을 발휘합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.55

/ M Tokens

Output:

$

2.2

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B

출시일: 2025. 4. 30.

Qwen3-30B-A3B는 Qwen 시리즈의 최신 대형 언어 Model로, 30.5B 전체 파라미터와 3.3B 활성화된 파라미터를 갖춘 전문가 집단 구조(MoE) 아키텍처를 갖추고 있습니다. 이 Model은 특히 복잡한 논리적 추론, 수학, 코딩을 위한 사고 모드와 효율적인 범용 대화를 위한 비사고 모드 간의 원활한 전환을 지원합니다. 이 Model은 창의적 글쓰기, 롤플레잉, 다중 턴 대화에서 인간 선호도의 조화에 있어서 크게 향상된 추론 능력을 보여줍니다. 또한 외부 도구와의 정밀한 통합을 위한 에이전트 기능에 뛰어나며 100개가 넘는 언어와 방언을 견고하게 지원하며 뛰어난 다국어 지침 준수 및 번역 기능을 제공합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.09

/ M Tokens

Output:

$

0.45

/ M Tokens

Qwen

Text Generation

Qwen3-32B

출시일: 2025. 4. 30.

Qwen3-32B는 최신 대규모 언어 모델로, Qwen 시리즈에서 32.8B 파라미터를 보유하고 있습니다. 이 모델은 독창적으로 사고 모드(복잡한 논리적 추론, 수학 및 코딩)를 일반 대화용 비사고 모드로 원활하게 전환할 수 있도록 지원합니다. 수학, 코드 생성 및 상식적 논리 추론에서 이전 QwQ와 Qwen2.5 지시 모델을 뛰어넘는 크게 향상된 추론 능력을 보여줍니다. 이 모델은 창의적 글쓰기, 롤플레잉 및 다중 턴 대화에서 인간 선호도 조정에 뛰어납니다. 또한 100개 이상의 언어와 방언을 강력한 다국어 지시 따름 및 번역 기능을 통해 지원합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-14B

출시일: 2025. 4. 30.

Qwen3-14B는 14.8B 매개변수를 갖춘 Qwen 시리즈의 최신 대형 언어 모델입니다. 이 Model은 복잡한 논리적 추론, 수학, 코딩을 위한 사고 모드와 효율적이고 일반적인 대화를 위한 비사고 모드 간의 원활한 전환을 독특하게 지원합니다. 이는 수치, 코드 생성 및 상식적 논리 추론에서 이전 QwQ 및 Qwen2.5 교육 모델을 능가하는 상당히 향상된 추론 능력을 보여줍니다. 이 Model은 창의적 글쓰기, 롤플레잉 및 다중 턴 대화에 대한 인간 선호도 조정에 뛰어난 능력을 발휘합니다. 또한 강력한 다국어 지침 준수 및 번역 기능을 통해 100개 이상의 언어와 방언을 지원합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-8B

출시일: 2025. 4. 30.

Qwen3-8B는 Qwen 시리즈의 최신 대형 언어 모델로, 8.2B 매개변수를 가지고 있습니다. 이 Model은 독특하게 복잡한 논리적 추론, 수학, 코딩을 위한 사고 모드와 효율적이고 일반적인 대화를 위한 비사고 모드 간의 원활한 전환을 지원합니다. 이 모델은 수학, 코드 생성 및 상식적인 논리적 추론에서 이전 QwQ 및 Qwen2.5 지시 모델을 능가하는 상당히 향상된 추론 능력을 보여줍니다. 이 Model은 창의적 글쓰기, 역할극 및 다중 회전 대화에 대한 인간 선호 정렬에서 뛰어난 성과를 보입니다. 또한, 100개 이상의 언어 및 방언을 지원하며 강력한 다국어 지침 따르기 및 번역 기능을 제공합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.06

/ M Tokens

Output:

$

0.06

/ M Tokens

Z.ai

Text Generation

GLM-Z1-32B-0414

출시일: 2025. 4. 18.

GLM-Z1-32B-0414은 깊이 있는 사고 능력을 가진 추론 Model입니다. 이 Model은 GLM-4-32B-0414를 기반으로 콜드 스타트와 강화 학습을 통해 개발되었으며, 수학, 코드 및 논리를 포함한 작업에 대한 추가 훈련이 이루어졌습니다. 기본 Model에 비해 GLM-Z1-32B-0414은 수학적 능력과 복잡한 작업을 해결하는 능력이 크게 향상되었습니다. 훈련 과정에서 팀은 쌍비교 순위 피드백에 기반한 일반 강화 학습도 도입하여 Model의 일반적인 능력을 더욱 향상시켰습니다. 32B 파라미터만 가졌음에도 불구하고, 특정 작업에서의 성능은 671B 파라미터를 가진 DeepSeek-R1과 비교할 만합니다. AIME 24/25, LiveCodeBench, GPQA와 같은 벤치마크에 대한 평가를 통해, 이 Model은 강력한 수학적 추론 능력을 보여주며, 더 넓은 범위의 복잡한 작업에 대한 솔루션을 지원할 수 있습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Z.ai

Text Generation

GLM-4-32B-0414

출시일: 2025. 4. 18.

GLM-4-32B-0414는 320억 개의 매개변수를 가진 GLM 계열의 차세대 모델입니다. 그 성능은 OpenAI의 GPT 시리즈와 DeepSeek의 V3/R1 시리즈에 필적하며, 매우 사용자 친화적인 로컬 배포 기능을 지원합니다. GLM-4-32B-Base-0414는 15조 바이트의 고품질 데이터, 대량의 추론형 합성 데이터를 포함하여 사전 훈련되어 후속 강화 학습 확장의 기반을 마련했습니다. 사후 훈련 단계에서는 대화 시나리오에 대한 인간의 선호 정렬 외에도 팀은 거절 샘플링 및 강화 학습과 같은 기술을 사용하여 지침 준수, 엔지니어링 코드 및 함수 호출에서 모델의 성능을 강화했습니다. GLM-4-32B-0414는 엔지니어링 코드, 아티팩트 생성, 함수 호출, 검색 기반 Q&A, 보고서 생성 등 다양한 분야에서 우수한 결과를 달성합니다. 여러 벤치마크에서 성능은 때로는 GPT-4o나 DeepSeek-V3-0324 (671B)와 같은 더 큰 모델의 성능에 근접하거나 이를 초과하기도 합니다....

Total Context:

33K

Max output:

33K

Input:

$

0.27

/ M Tokens

Output:

$

0.27

/ M Tokens

Z.ai

Text Generation

GLM-Z1-9B-0414

출시일: 2025. 4. 18.

GLM-Z1-9B-0414는 90억 개의 매개변수를 가진 소형 크기의 Model로, 오픈 소스 전통을 유지하면서도 놀라운 기능을 보여주는 GLM 시리즈의 일원입니다. 그 규모가 작음에도 불구하고, GLM-Z1-9B-0414는 수학적 추론 및 일반 작업에서 뛰어난 성능을 발휘합니다. 그 전반적인 성능은 동급 오픈 소스 Model들 중에서 이미 선두 수준에 있습니다. 연구팀은 더 큰 Model에 사용된 동일한 기술 시리즈를 사용하여 이 9B Model을 훈련시켰습니다. 특히 자원이 제한된 시나리오에서 이 Model은 효율성과 효과성 간의 탁월한 균형을 달성하여 경량 배포를 원하는 사용자에게 강력한 옵션을 제공합니다. 이 Model은 깊은 사고 능력을 갖추고 있으며, YaRN 기술을 통해 긴 문맥을 처리할 수 있어, 제한된 계산 자원으로 수학적 추론 능력이 필요한 응용 프로그램에 특히 적합합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.086

/ M Tokens

Output:

$

0.086

/ M Tokens

Z.ai

Text Generation

GLM-4-9B-0414

출시일: 2025. 4. 18.

GLM-4-9B-0414는 GLM 시리즈의 소형 모델로, 90억 개의 파라미터를 가지고 있습니다. 이 Model은 GLM-4-32B 시리즈의 기술적 특성을 계승하면서도 더 가벼운 배포 옵션을 제공합니다. 규모가 작음에도 불구하고, GLM-4-9B-0414는 코드 생성, 웹 디자인, SVG 그래픽 생성 및 검색 기반 작성 작업에서 뛰어난 능력을 발휘합니다. 이 Model은 또한 함수 호출 기능을 지원하여 외부 도구를 호출해서 기능 범위를 확장할 수 있습니다. 이 Model은 자원 제한 시나리오에서 효율성과 효과성 사이의 좋은 균형을 보여주어, 제한된 계산 자원 하에서 AI 모델을 배치해야 하는 사용자에게 강력한 옵션을 제공합니다. 같은 시리즈의 다른 모델들과 마찬가지로 GLM-4-9B-0414도 다양한 벤치마크 테스트에서 경쟁력 있는 성능을 보여줍니다....

Total Context:

33K

Max output:

33K

Input:

$

0.086

/ M Tokens

Output:

$

0.086

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-32B-Instruct

출시일: 2025. 3. 24.

Qwen2.5-VL-32B-Instruct는 Qwen 팀에서 출시한 다중 모달 대형 언어 모델로, Qwen2.5-VL 시리즈의 일부입니다. 이 Model은 일반 객체 인식에 능숙할 뿐만 아니라 Text, 차트, 아이콘, 그래픽 및 이미지 내 레이아웃을 분석하는 데 매우 능합니다. 이는 도구를 추론하고 동적으로 지시할 수 있는 시각적 에이전트 역할을 하며, 컴퓨터와 전화기를 사용할 수 있습니다. 또한 이 Model은 이미지 내 객체를 정확하게 로컬화하고, 송장 및 표와 같은 데이터에 대한 구조화된 Output을 생성할 수 있습니다. 이전 버전 Qwen2-VL과 비교하여, 이 버전은 강화 학습을 통해 수학적 및 문제 해결 능력이 향상되었으며, 인간의 선호도에 더 잘 맞추어지도록 응답 스타일이 조정되었습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.27

/ M Tokens

Output:

$

0.27

/ M Tokens

Qwen

Text Generation

QwQ-32B

출시일: 2025. 3. 6.

QwQ는 Qwen 시리즈의 추론 모델입니다. 기존의 명령어 조정 모델과 비교했을 때, QwQ는 사고와 추론이 가능하여 특히 어려운 문제에서 다운스트림 작업에서 상당히 향상된 성능을 발휘할 수 있습니다. QwQ-32B는 중간 크기의 추론 모델로, 최신의 추론 모델들, 예를 들어 DeepSeek-R1, o1-mini와 경쟁력 있는 성능을 발휘할 수 있습니다. 이 Model은 RoPE, SwiGLU, RMSNorm, Attention QKV bias와 같은 기술을 64개의 레이어와 GQA 아키텍처의 8개 KV를 위한 40개의 Q 주의 집중 헤드를 포함하고 있습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.15

/ M Tokens

Output:

$

0.58

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-72B-Instruct

출시일: 2025. 1. 28.

Qwen2.5-VL은 Qwen2.5 시리즈의 Vision-language Model로 여러 측면에서 상당한 향상을 보여줍니다: 강력한 비주얼 이해력을 갖추고 공통 사물을 인식하면서 이미지 내의 텍스트, 차트, 레이아웃을 분석할 수 있으며, 논리적 사고와 도구를 동적으로 지시할 수 있는 비주얼 에이전트로 기능합니다. 그것은 1시간 이상 길이의 Video를 이해하고 주요 이벤트를 포착할 수 있으며, 이미지 내 사물을 정확히 찾아 경계 상자 또는 포인트를 생성할 수 있습니다. 또한 송장 및 양식과 같은 스캔된 데이터에 대한 구조적 결과물을 지원합니다. 이 Model은 Image, Video, 에이전트 작업을 포함한 다양한 벤치마크에서 우수한 성능을 보여줍니다....

Total Context:

131K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-7B-Instruct

출시일: 2025. 1. 28.

Qwen2.5-VL은 Qwen 시리즈의 새로운 구성원으로, 강력한 시각적 이해 능력을 갖추고 있습니다. 이 모델은 이미지 내 텍스트, 차트 및 레이아웃을 분석하고, 긴 동영상을 이해하며, 이벤트를 포착할 수 있습니다. 또한 추론, 도구 조작, 다중 형식 객체 로컬라이제이션 지원 및 구조화된 Outputs 생성을 할 수 있습니다. 이 Model은 동영상 이해에서 동적 해상도 및 프레임 속도 학습을 위해 최적화되었으며, 시각 인코더의 효율성을 개선하였습니다....

Total Context:

33K

Max output:

4K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-32B

출시일: 2025. 1. 20.

DeepSeek-R1-Distill-Qwen-32B는 Qwen2.5-32B를 기반으로 한 정제된 모델입니다. 이 Model은 DeepSeek-R1에 의해 생성된 80만 개의 큐레이트된 샘플을 사용하여 미세 조정되었으며, 수학, 프로그래밍 및 논리 작업 전반에 걸쳐 뛰어난 성능을 보여줍니다. AIME 2024, MATH-500 및 GPQA Diamond를 포함한 다양한 벤치마크에서 인상적인 결과를 달성했으며, 특히 MATH-500에서 94.3%의 정확도를 기록하여 뛰어난 수학적 추론 능력을 보여줍니다....

Total Context:

131K

Max output:

131K

Input:

$

0.18

/ M Tokens

Output:

$

0.18

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-14B

출시일: 2025. 1. 20.

DeepSeek-R1-Distill-Qwen-14B는 Qwen2.5-14B를 기반으로 한 증류된 Model입니다. 이 Model은 DeepSeek-R1에 의해 생성된 80만 개의 큐레이션 샘플을 사용하여 미세 조정되었으며, 강력한 추론 능력을 보여줍니다. MATH-500에서 93.9%의 정확도, AIME 2024에서 69.7%의 통과율, CodeForces에서 1481의 등급을 달성하여 수학 및 프로그래밍 작업에서의 강력한 능력을 입증하였습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.1

/ M Tokens

Output:

$

0.1

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-7B

출시일: 2025. 1. 20.

DeepSeek-R1-Distill-Qwen-7B는 Qwen2.5-Math-7B를 기반으로 하는 디스틸 Model입니다. 이 Model은 DeepSeek-R1에 의해 생성된 80만 개의 큐레이팅된 샘플을 사용하여 미세 조정되었으며, 뛰어난 추론 능력을 보여줍니다. MATH-500에서 92.8%의 정확도, AIME 2024에서 55.5%의 합격률, CodeForces에서 1189의 평가를 달성하며, 7B 규모의 Model로서 뛰어난 수학적 및 프로그래밍 능력을 보여줍니다....

Total Context:

33K

Max output:

16K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

Qwen

Text Generation

Qwen2.5-Coder-32B-Instruct

출시일: 2024. 11. 11.

Qwen2.5-Coder-32B-Instruct는 Qwen2.5를 기반으로 개발된 코드 전용 대형 언어 모델입니다. 이 모델은 5.5조 개의 tokens로 학습을 거쳐 코드 생성, 코드 추론 및 코드 수리에 있어 상당한 개선을 이뤄냈습니다. 현재 가장 진보된 오픈 소스 코드 언어 Model로서, 코드 작성 능력이 GPT-4와 견줄 만합니다. Model은 코드 작성 능력을 향상시켰을 뿐만 아니라 수학과 일반적인 능력에서도 강점을 유지하며, 긴 Text 처리도 지원합니다....

Total Context:

33K

Max output:

4K

Input:

$

0.18

/ M Tokens

Output:

$

0.18

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct-128K

출시일: 2024. 9. 18.

Qwen2.5-72B-Instruct는 Alibaba Cloud에서 출시한 최신 대형 언어 Model 시리즈 중 하나입니다. 이 72B Model은 코딩과 수학과 같은 분야에서 상당한 개선을 보여줍니다. 최대 128K tokens의 컨텍스트 길이를 지원합니다. Model은 또한 다국어 지원을 제공하며, 중국어, 영어 등을 포함한 29개 이상의 언어를 다룹니다. JSON 형식으로 특히 구조화된 Output을 생성하고, 데이터 구조를 이해하며, 지침을 따르는 데에 있어 주목할 만한 향상을 보여주었습니다....

Total Context:

131K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

DeepSeek

Text Generation

deepseek-vl2

출시일: 2024. 12. 13.

DeepSeek-VL2는 4.5B 활성 매개변수만으로 우수한 성능을 달성하기 위해 희소 활성 MoE 구조를 사용하여 DeepSeekMoE-27B를 기반으로 개발된 혼합 전문가(MoE) Vision-언어 Model입니다. 이 Model은 시각적 질문 응답, 광학 문자 인식, 문서/표/차트 이해 및 시각적 정지 등의 다양한 작업에서 뛰어난 성능을 발휘합니다. 기존의 오픈 소스 밀집 Model 및 MoE 기반 Model과 비교하여 동일하거나 더 적은 활성 매개변수를 사용하여 경쟁력 있는 또는 최첨단 성능을 보여줍니다....

Total Context:

4K

Max output:

4K

Input:

$

0.15

/ M Tokens

Output:

$

0.15

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct

출시일: 2024. 9. 18.

Qwen2.5-72B-Instruct는 Alibaba Cloud에서 발표한 최신 대형 언어 모델 시리즈 중 하나입니다. 이 72B 모델은 코딩과 수학 분야에서 상당한 향상을 보여줍니다. 이 모델은 또한 29개 이상의 언어를 지원하는 다국어 지원을 제공하며, 중국어와 영어를 포함합니다. 이 모델은 특히 JSON 형식에서 지시를 따르고, 구조화된 데이터를 이해하며, 구조화된 Output을 생성하는 데 있어 현저한 개선을 보여줍니다....

Total Context:

33K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-32B-Instruct

출시일: 2024. 9. 19.

Qwen2.5-32B-Instruct는 Alibaba Cloud에서 출시한 최신 대형 언어 모델 시리즈 중 하나입니다. 이 32B 모델은 코딩과 수학과 같은 분야에서 상당한 개선을 보여줍니다. 모델은 또한 다국어 지원을 제공하며 중국어, 영어 등 29개 이상의 언어를 포함합니다. 명령어를 따르는 것과 구조화된 데이터를 이해하는 것, 특히 JSON 형식으로 구조화된 출력물을 생성하는 데 있어 주목할 만한 향상을 보여줍니다....

Total Context:

33K

Max output:

4K

Input:

$

0.18

/ M Tokens

Output:

$

0.18

/ M Tokens

Qwen

Text Generation

Qwen2.5-14B-Instruct

출시일: 2024. 9. 18.

Qwen2.5-14B-Instruct는 Alibaba Cloud에서 출시한 최신 대형 언어 모델 시리즈 중 하나입니다. 이 14B 모델은 코딩 및 수학과 같은 분야에서 상당한 개선을 보여줍니다. 모델은 또한 중국어와 영어를 포함하여 29개 이상의 언어를 지원하는 다중 언어 지원을 제공합니다. 특히 JSON 형식으로 구조화된 출력 생성을 포함하여 지침을 따르고 구조화된 데이터를 이해하는 데 있어 주목할 만한 발전을 보여주고 있습니다....

Total Context:

33K

Max output:

4K

Input:

$

0.1

/ M Tokens

Output:

$

0.1

/ M Tokens

Qwen

Text Generation

Qwen2.5-7B-Instruct

출시일: 2024. 9. 18.

Qwen2.5-7B-Instruct는 Alibaba Cloud에서 출시한 최신 대형 언어 모델 시리즈 중 하나입니다. 이 7B 모델은 코딩 및 수학과 같은 분야에서 상당한 개선을 보여줍니다. 이 Model은 중국어, 영어를 포함하여 29개 이상의 언어를 지원하는 다국어 지원을 제공합니다. 또한, Model은 명령어 따르기, 구조화된 데이터 이해 및 구조화된 Outputs 생성, 특히 JSON에서 눈에 띄는 향상을 보여줍니다....

Total Context:

33K

Max output:

4K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

Meta Llama

Text Generation

Meta-Llama-3.1-8B-Instruct

출시일: 2025. 4. 23.

Meta Llama 3.1은 Meta에서 개발한 다국어 대형 언어 모델 계열로, 8B, 70B, 405B 매개변수 크기의 사전 훈련 및 지시 조정 변형 기능을 갖추고 있습니다. 이 8B 지시 조정 Model은 다국어 대화용 사례에 최적화되어 있으며, 일반적인 산업 벤치마크에서 많은 사용 가능한 오픈 소스 및 닫힌 Chat 모델들을 능가합니다. 이 Model은 15조 개 이상의 공개 데이터 tokens으로 훈련되었으며, 도움이 되고 안전성을 높이기 위해 인간 피드백이 포함된 감독 Fine-tuning 및 강화 학습과 같은 기법을 사용했습니다. Llama 3.1은 Text 및 코드 생성 지원 기능을 제공하며, 지식 기준일은 2023년 12월입니다....

Total Context:

33K

Max output:

4K

Input:

$

0.06

/ M Tokens

Output:

$

0.06

/ M Tokens

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow