최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

MiniMaxAI

Text Generation

MiniMax-M2.5

MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...

Total Context:

197K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

1.2

/ M Tokens

Z.ai

Text Generation

GLM-5

GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....

Total Context:

205K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

2.55

/ M Tokens

StepFun

Text Generation

Step-3.5-Flash

Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...

Total Context:

262K

Max output:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.3

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.5

Kimi K2.5는 오픈 소스, 네이티브 Multimodal 에이전틱 Model로, Kimi-K2-Base 위에 약 15조 개의 혼합된 시각 및 Text token 을 지속적으로 사전 학습하여 구축되었습니다. 1T-파라미터 MoE 아키텍처(32B 활성)와 256K 컨텍스트 길이를 가지고 Vision과 언어 이해를 원활하게 통합하며, 고급 에이전틱 기능을 제공하여 인스턴트 및 사고 모드, 대화 및 에이전틱 패러다임을 모두 지원합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.23

/ M Tokens

Output:

$

3.0

/ M Tokens

Z.ai

Text Generation

GLM-4.7

GLM-4.7은 Zhipu의 차세대 플래그십 Model로, 총 355B 파라미터와 32B 활성화 파라미터를 가지고 있으며, 일반 대화, 추론 및 에이전트 기능에서 종합적인 업그레이드를 제공합니다. 응답은 더 간결하고 자연스러워졌으며, 글쓰기에서는 더욱 몰입감을 느낄 수 있습니다. 도구 호출 지침도 더 신뢰할 수 있게 따르며, 인공물의 프론트엔드 마감 처리와 에이전트 코드의 효과성, 장기간 과제 완료 효율성도 더욱 개선되었습니다....

Total Context:

205K

Max output:

205K

Input:

$

0.42

/ M Tokens

Output:

$

2.2

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2

DeepSeek-V3.2는 고도의 계산 효율성, 뛰어난 추론 및 에이전트 성능을 조화시키는 모델입니다. 이 접근 방식은 세 가지 주요 기술적 돌파구를 기반으로 합니다: DeepSeek Sparse Attention (DSA)은 계산 복잡성을 상당히 줄이면서도 모델 성능을 유지하는 효율적인 주의 메커니즘으로, 특히 긴 문맥 시나리오에 최적화되어 있습니다; Scalable Reinforcement Learning Framework는 GPT-5와 비교할 만한 성능과 Gemini-3.0-Pro의 고성능 변형과 동등한 추론 능력을 가능하게 합니다; 그리고 대규모 에이전트 태스크 합성 파이프라인은 도구 사용 시나리오에 추론을 통합하여 복잡한 상호작용 환경에서의 규정 준수와 일반화를 향상시킵니다. 이 모델은 2025 국제 수학 올림피아드(IMO)와 국제 정보 올림피아드(IOI)에서 금메달 성적을 달성했습니다....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.42

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp는 DeepSeek Model의 실험 버전으로, V3.1-Terminus를 기반으로 구축되었습니다. 긴 컨텍스트에 대해 더 빠르고 효율적인 학습 및 Inference를 위해 DeepSeek Sparse Attention(DSA)를 선보입니다....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.41

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

GLM-4.6V는 동일한 매개변수 규모의 모델 중 시각적 이해에서 SOTA (State-of-the-Art) 정확도를 달성합니다. 처음으로, 시각적 모델 아키텍처에 Function Call 기능을 본질적으로 통합하여 "시각적 인식"과 "실행 가능한 행동" 간의 격차를 해소합니다. 이는 실제 비즈니스 시나리오에서 다중 모달 에이전트를 위한 통합된 기술적 기반을 제공합니다. 또한, 시각적 컨텍스트 창이 128k로 확장되어 긴 비디오 스트림 처리와 고해상도 멀티 이미지 분석을 지원합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

0.9

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Terminus는 V3.1의 강점 위에 사용자 피드백을 반영하여 업데이트된 버전입니다. 언어 일관성을 향상시켜 중국어-영어 혼합 텍스트와 가끔 발생하는 이상한 문자를 줄였습니다. 또한, 더욱 강력한 코드 에이전트 및 검색 에이전트 성능으로 업그레이드되었습니다....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1

DeepSeek-V3.1은 사고 모드와 비사고 모드를 모두 지원하는 하이브리드 Model입니다. 후속 훈련 최적화를 통해 도구 사용과 에이전트 작업에서 Model의 성능이 크게 향상되었습니다. DeepSeek-V3.1-Think는 DeepSeek-R1-0528에 비해 유사한 수준의 답변 품질을 달성하면서도 더 빠르게 응답합니다....

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3

DeepSeek-V3-0324은 이전 버전인 DeepSeek-V3에 비해 여러 주요 측면에서 눈에 띄는 개선을 보여주며, 여기에는 추론 성능의 큰 향상, 더 강력한 프론트엔드 개발 기술, 그리고 더 스마트한 도구 사용 능력이 포함됩니다....

Total Context:

164K

Max output:

164K

Input:

$

0.25

/ M Tokens

Output:

$

1

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1

DeepSeek-R1-0528은(는) 업그레이드된 Model로서 복잡한 추론 작업을 처리하는 데 있어 상당한 개선을 보여주며, 환각률 감소, 기능 호출에 대한 향상된 지원, 그리고 바이브 코딩을 위한 더 나은 경험을 제공합니다. O3 및 Gemini 2.5 Pro와 비교할 만한 성능을 달성합니다....

Total Context:

164K

Max output:

164K

Input:

$

0.5

/ M Tokens

Output:

$

2.18

/ M Tokens

Tongyi-MAI

Text-to-Image

Z-Image-Turbo

$

0.005

/ Image

Nex AGI

Text Generation

DeepSeek-V3.1-Nex-N1

DeepSeek-V3.1-Nex-N1은 선도적인 오픈 소스 모델을 기반으로 개발된 대형 언어 Model로, 후속 훈련을 통해 최적화되었습니다. 이러한 최적화는 그 역량을 크게 향상시키며, Agent 작업과 코드 생성 및 이해, 도구 사용, 롤플레잉 등에서 뛰어난 성능을 발휘합니다. 이 Model은 복잡한 작업을 여러 단계의 계획으로 분해하고 모호성을 능동적으로 명확히 하여 신뢰할 수 있고 정확한 실행을 보장합니다....

Total Context:

131K

Max output:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

Qwen3-VL은 Qwen3 시리즈의 vision-language Model로, 다양한 vision-language(VL) 벤치마크에서 state-of-the-art(SOTA) 성능을 달성하고 있습니다. 이 Model은 최대 메가픽셀 수준의 고해상도 Image Input을 지원하며, 일반적인 시각적 이해, 다국어 OCR, 세밀한 시각적 기준 설정 및 시각적 대화에서 강력한 기능을 가지고 있습니다. Qwen3 시리즈의 일환으로서, 이는 강력한 언어 기반을 물려받아 복잡한 지시를 이해하고 실행할 수 있습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

Qwen3-VL-Thinking은 복잡한 시각적 추론 작업에 특별히 최적화된 Qwen3-VL 시리즈의 한 버전입니다. '생각 모드'를 통합하여 최종 답변을 제공하기 전에 상세한 중간 추론 단계(Chain-of-Thought)를 생성할 수 있습니다. 이 설계는 시각 질문 응답(VQA) 및 다단계 논리, 계획 및 심층 분석이 필요한 기타 Vision-언어 작업에서 Model의 성능을 크게 향상시킵니다....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

Qwen3-VL-8B-Instruct는 Qwen3 시리즈의 Vision-언어 Model로서, 일반적인 시각 이해, 시각 중심 대화 및 이미지 내 다국어 Text 인식에서 강력한 능력을 보여줍니다....

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Instruct

Qwen3-VL-235B-A22B-Instruct는 235B 매개변수의 전문가 혼합(MoE) 비전-언어 모델로, 22B 활성화된 매개변수를 가지고 있습니다. 이는 Qwen3-VL-235B-A22B의 지침 조정 버전이며, Chat 애플리케이션에 맞춰 조정되었습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.3

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Thinking

Qwen3-VL-235B-A22B-Thinking은 Qwen3-VL 시리즈 모델 중 하나로, 추론이 강화된 Thinking 에디션입니다. 이 모델은 STEM, 수학, 인과 분석, 논리적이고 증거 기반의 답변을 포함하여 많은 멀티모달(Multimodal) 추론 벤치마크에서 최첨단(SOTA) 결과를 달성합니다. 235B의 총 매개 변수와 22B의 활성 매개 변수를 갖춘 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 특징으로 합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.45

/ M Tokens

Output:

$

3.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

Qwen3-VL 시리즈는 우수한 Text 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 문맥 길이, 향상된 공간 및 Video 역학 이해, 더 강력한 에이전트 상호작용 능력을 제공합니다. 엣지에서 클라우드로 확장되는 Dense 및 MoE 아키텍처에서 사용할 수 있으며, Instruct 및 추론 강화 Thinking 에디션으로 제공됩니다....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

Qwen3-VL 시리즈는 우수한 Text 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 문맥 길이, 향상된 공간 및 Video 역학 이해, 더 강력한 에이전트 상호작용 능력을 제공합니다. 엣지에서 클라우드로 확장되는 Dense 및 MoE 아키텍처에서 사용할 수 있으며, Instruct 및 추론 강화 Thinking 에디션으로 제공됩니다....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct-0905

Kimi K2-Instruct-0905는 최신의 첨단 전문가 혼합(MoE) 언어 Model로, Kimi K2의 최신 버전이자 가장 강력한 버전입니다. 주요 기능으로는 강화된 코딩 능력, 특히 프론트엔드 및 도구 호출, 256k tokens로 확장된 컨텍스트 길이, 다양한 에이전트 스캐폴드와의 개선된 통합이 포함됩니다....

Total Context:

262K

Max output:

262K

Input:

$

0.4

/ M Tokens

Output:

$

2

/ M Tokens

OpenAI

Text Generation

gpt-oss-120b

gpt-oss 시리즈는 강력한 추론, 에이전트 작업 및 다재다능한 개발자 사용 사례를 위해 OpenAI가 설계한 공개 가중치 모델입니다. gpt-oss-120b는 생산, 범용, 고도의 추론 사용 사례를 위해 설계되었으며, NVIDIA H100이나 AMD MI300X와 같은 단일 80GB GPU에 적합합니다....

Total Context:

131K

Max output:

8K

Input:

$

0.05

/ M Tokens

Output:

$

0.45

/ M Tokens

OpenAI

Text Generation

gpt-oss-20b

gpt-oss 시리즈는 강력한 추론, 행위적 작업 및 다양한 개발자 사용 사례를 위해 설계된 OpenAI의 오픈 가중치 모델입니다. gpt-oss-20b는 낮은 대기 시간 및 로컬 또는 전문화된 사용 사례를 위해 설계되었습니다....

Total Context:

131K

Max output:

8K

Input:

$

0.04

/ M Tokens

Output:

$

0.18

/ M Tokens

Z.ai

Text Generation

GLM-4.6

GLM-4.5와 비교하여 GLM-4.6은 몇 가지 주요 개선 사항을 가져옵니다. 여기에는 길이가 200K token으로 확장된 더 긴 문맥 창, 뛰어난 코딩 성능, 고급 추론, 더 강력한 에이전트, 그리고 정교한 글쓰기가 포함됩니다....

Total Context:

205K

Max output:

205K

Input:

$

0.39

/ M Tokens

Output:

$

1.9

/ M Tokens

Z.ai

Text Generation

GLM-4.5-Air

GLM-4.5 시리즈 모델은 지능형 에이전트를 위해 설계된 기본 Model입니다. GLM-4.5-Air는 총 1060억 매개변수와 120억 활성 매개변수를 갖춘 더 컴팩트한 디자인을 채택하고 있습니다. 또한, 사고 모드와 비사고 모드를 모두 제공하는 하이브리드 추론 모델입니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.86

/ M Tokens

Qwen

Image-to-Video

Wan2.2-I2V-A14B

$

0.29

/ Video

Qwen

Text-to-Video

Wan2.2-T2V-A14B

$

0.29

/ Video

inclusionAI

Text Generation

Ling-flash-2.0

Ling-flash-2.0은 InclusionAI에서 제작한 언어 Model로 총 1000억 개의 매개변수를 가지고 있습니다. 이 중 61억 개는 token당 활성화되며, 48억 개는 비-Embedding입니다. Ling 2.0 아키텍처 시리즈의 일환으로서, 가벼우면서도 강력한 전문가 혼합(Mixture-of-Experts, MoE) Model로 설계되었습니다. 이 Model은 40B 레벨의 밀집 Model 및 다른 더 큰 MoE Model과 비교하여 성능을 비슷하거나 그 이상으로 제공할 것을 목표로 하지만, 활성화되는 매개변수 수는 상당히 적습니다. 이 Model은 극한의 아키텍처 디자인 및 훈련 방법을 통해 높은 성능과 효율성을 달성하는 데 중점을 둔 전략을 나타냅니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

inclusionAI

Text Generation

Ring-flash-2.0

Ring-flash-2.0은(는) Ling-flash-2.0-base에 기반한 고성능 사유 Model로서 깊이 최적화되었습니다. 이는 총 100B 매개변수를 가진 전문가 혼합(MoE) Model로서, Inference마다 6.1B만 활성화됩니다. 이 Model은 MoE LLM에서 강화 학습(RL)의 훈련 불안정성 문제를 해결하기 위해 독립적으로 개발된 'icepop' 알고리즘을 활용하여 확장된 RL 학습 사이클 전반에 걸쳐 복잡한 추론 능력을 지속적으로 향상시킵니다. Ring-flash-2.0은 수학 경시 대회, 코드 생성, 논리적 추론을 포함한 도전적인 벤치마크 전반에서 상당한 진전을 보여줍니다. 그 성능은 40B 매개변수 이하의 SOTA 밀집 Model을 넘어서는 동시에, 더 큰 공개 가중치 MoE Model 및 비공개 고성능 사유 Model API와 경쟁합니다. 더욱 놀라운 것은, Ring-flash-2.0은 주로 복잡한 추론을 위해 설계되었지만 창의적 글쓰기에서도 강력한 능력을 보여준다는 것입니다. 효율적인 아키텍처 덕분에 고속 Inference를 달성하여 높은 동시성 시나리오에서 사유 Model의 Inference 비용을 크게 줄입니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text-to-Image

Qwen-Image

$

0.02

/ Image

Qwen

Image-to-Image

Qwen-Image-Edit

$

0.04

/ Image

Qwen

Text Generation

Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder-480B-A35B-Instruct는 현재까지 Alibaba에서 출시한 가장 에이전트 구조의 코드 Model입니다. 이 Model은 4800억의 총 파라미터와 350억의 활성화된 파라미터를 가진 혼합 전문가 (MoE) Model로, 효율성과 성능의 균형을 이루고 있습니다. 이 Model은 자체적으로 256K (대략 262,144) token 컨텍스트 길이를 지원하며, YaRN과 같은 외삽 기법을 사용하여 최대 100만 token까지 확장할 수 있어 저장소 규모의 코드베이스와 복잡한 프로그래밍 작업을 처리할 수 있습니다. Qwen3-Coder는 에이전트 구조의 코딩 워크플로우를 위해 특별히 설계되었으며, 코드 생성뿐만 아니라 복잡한 문제를 해결하기 위해 개발자 도구 및 환경과 자동으로 상호작용합니다. 다양한 코딩 및 에이전트 벤치마크에서 개방형 Model 중 최첨단 결과를 달성하였으며, Claude Sonnet 4와 같은 선도적인 Model과 비교할 만한 성능을 보여줍니다. Model과 함께 Alibaba는 강력한 에이전트 코딩 기능을 완전히 발휘할 수 있도록 설계된 명령줄 도구인 Qwen Code도 오픈 소스화하였습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.25

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instruct는 Alibaba의 Qwen 팀이 개발한 Qwen3 시리즈의 코드 Model입니다. 간소화되고 최적화된 Model로서 뛰어난 성능과 효율성을 유지하면서 향상된 코딩 기능에 중점을 둡니다. Agentic Coding, Agentic Browser-Use 및 기타 기본 코딩 작업과 같은 복잡한 작업에서 오픈 소스 Model 중에서 상당한 성능 이점을 보여줍니다. 이 Model은 기본적으로 256K tokens의 긴 컨텍스트를 지원하며 최대 1M tokens까지 확장할 수 있어 더 나은 리포지토리 규모의 이해와 처리가 가능합니다. 또한 Qwen Code 및 CLINE과 같은 플랫폼에 대한 강력한 에이전틱 코딩 지원을 제공하며, 특별히 설계된 함수 호출 형식을 제공합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507은 비사고 모드의 Qwen3-30B-A3B 업데이트 버전입니다. 이는 305억 총 파라미터와 33억 활성화 파라미터를 가진 전문가 혼합 모델(Mixture-of-Experts (MoE) Model)입니다. 이 버전은 주요 개선사항을 특징으로 하고 있으며, 지시 사항 준수, 논리적 추론, 텍스트 이해, 수학, 과학, 코딩 및 도구 사용과 같은 일반적인 능력에서 상당한 향상을 포함합니다. 또한 다양한 언어에 걸쳐 장기적인 지식 범위에서 상당한 발전을 보여주며, 주관적이고 개방적인 과제에서 사용자 선호도에 맞춰 더 나은 정렬을 제공하여 더 유용한 응답과 높은 품질의 텍스트 생성이 가능합니다. 게다가, 장기 문맥 이해 능력이 256K로 강화되었습니다. 이 Model은 비사고 모드만 지원하며 Output에서 `<think></think>` 블록을 생성하지 않습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Thinking-2507

Qwen3-30B-A3B-Thinking-2507은 Alibaba의 Qwen 팀에서 출시한 Qwen3 시리즈의 최신 사고 Model입니다. 305억 개의 총 매개 변수와 33억 개의 활성 매개 변수를 가진 Mixture-of-Experts (MoE) Model로서 복잡한 작업의 역량을 강화하는 데 중점을 두고 있습니다. 이 Model은 논리적 추론, 수학, 과학, 코딩 및 일반적으로 인간의 전문 지식이 필요한 학술 벤치마크를 포함한 추론 작업에서 눈에 띄게 향상된 성능을 보여줍니다. 또한 명령 따르기, 도구 사용, Text 생성 및 인간의 선호와의 정렬 등의 일반적인 역량에서도 크게 개선되었습니다. 이 Model은 기본적으로 256K 긴 문맥 이해 기능을 지원하며, 이는 100만 token까지 확장할 수 있습니다. 이 버전은 '사고 모드'를 통해 단계별 추론으로 매우 복잡한 문제를 해결하기 위해 특별히 설계되었으며, 능동적 역량에서도 뛰어납니다....

Total Context:

262K

Max output:

131K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Instruct-2507

Qwen3-235B-A22B-Instruct-2507은 Alibaba Cloud의 Qwen 팀이 개발한 Qwen3 시리즈의 대표 Mixture-of-Experts (MoE) 대형 언어 Model입니다. 이 Model은 총 2,350억 개의 매개변수를 가지고 있으며, 매 포워드 패스당 220억 개가 활성화됩니다. 이는 Qwen3-235B-A22B 비사고 모드의 업데이트된 버전으로 출시되었으며, 지시 사항 따르기, 논리적 추론, Text 이해, 수학, 과학, 코딩 및 도구 사용과 같은 일반적인 기능 향상이 특징입니다. 또한, 다중 언어에서의 긴 꼬리 지식 범위에서 상당한 이점을 제공하며, 주관적이고 개방적인 작업에서 사용자 선호도와 더욱 잘 맞춰져 더욱 도움이 되는 응답과 고품질 Text 생성이 가능하게 합니다. 특히, 광범위한 256K (262,144 tokens) 컨텍스트 창을 본래 지원하여 장기 컨텍스트 이해의 기능을 향상시킵니다. 이 버전은 비사고 모드만을 독점적으로 지원하며, <think> 블록을 생성하지 않으며, 직접적인 Q&A 및 지식 검색과 같은 작업에 대한 더 효율적이고 정확한 응답을 제공하는 것을 목표로 합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-Thinking-2507은 Alibaba의 Qwen 팀이 개발한 Qwen3 대형 언어 모델 시리즈의 일원으로, 고도로 복잡한 추론 작업에 특화되어 있습니다. 이 Model은 혼합 전문가(MoE) 아키텍처에 기반하여 총 2350억 개의 매개변수와 토큰당 약 220억 개의 활성화된 매개변수를 가지고 있으며, 계산 효율성을 향상시키면서 강력한 성능을 유지합니다. 전용 'thinking' Model로서 논리적 추론, 수학, 과학, 코딩 및 학술 기준과 같은 인간 전문 지식이 요구되는 작업에서 크게 향상된 성능을 입증하여 오픈 소스 thinking Model 중 최첨단 결과를 달성합니다. 게다가, 이 Model은 지침 준수, 도구 사용 및 Text 생성과 같은 향상된 일반 기능을 제공하며, 256K의 긴 컨텍스트 이해 기능을 본래 지원하여 깊은 추론과 긴 문서 처리가 필요한 시나리오에 이상적입니다....

Total Context:

262K

Max output:

262K

Input:

$

0.13

/ M Tokens

Output:

$

0.6

/ M Tokens

ByteDance

Text Generation

Seed-OSS-36B-Instruct

Seed-OSS는 ByteDance Seed 팀에서 개발한 일련의 오픈 소스 대형 언어 모델로, 강력한 장기 컨텍스트 처리, 추론, 에이전트 기능 및 범용 능력을 위해 설계되었습니다. 이 시리즈 내에서 Seed-OSS-36B-Instruct는 360억 개의 매개변수를 가진 명령 조정된 Model로, 원활한 초장 컨텍스트 길이를 지원하여 방대한 문서나 복잡한 코드베이스를 한 번에 처리할 수 있습니다. 이 Model은 추론, 코드 생성, 에이전트 작업(도구 사용 등)에 맞게 특별히 최적화되어 있으며, 균형 잡힌 우수한 범용 능력을 유지합니다. 이 Model의 핵심 기능 중 하나는 'Thinking Budget' 기능으로, 사용자가 필요에 따라 추론 길이를 유연하게 조정할 수 있어 실제 응용 프로그램에서 Inference 효율성을 효과적으로 향상시킵니다....

Total Context:

262K

Max output:

262K

Input:

$

0.21

/ M Tokens

Output:

$

0.57

/ M Tokens

BAIDU

Text Generation

ERNIE-4.5-300B-A47B

ERNIE-4.5-300B-A47B는 Baidu에서 Mixture-of-Experts (MoE) 아키텍처를 기반으로 개발한 대형 언어 Model입니다. 이 Model은 총 3000억 개의 파라미터를 가지고 있지만, Inference 동안에는 token당 470억 개의 파라미터만 활성화하여 강력한 성능과 계산 효율성을 균형 있게 유지합니다. ERNIE 4.5 시리즈의 핵심 Model 중 하나로서 PaddlePaddle 심층 학습 프레임워크에서 훈련되었으며, text 이해, 생성, 추론, 코딩과 같은 작업에서 뛰어난 능력을 보여줍니다. 이 Model은 혁신적인 Multimodal 이종 MoE 사전 훈련 방법을 사용하여 text와 시각적 모달리티에 대한 공동 훈련을 통해 전반적인 능력을 효과적으로 향상시켰으며, 지시사항 준수 및 세계 지식 암기에서 두드러진 결과를 나타냅니다. Baidu는 AI 기술 연구와 응용을 촉진하기 위해 이 시리즈의 다른 Model과 함께 이 Model을 오픈 소스로 공개했습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.28

/ M Tokens

Output:

$

1.1

/ M Tokens

Tencent

Text Generation

Hunyuan-A13B-Instruct

Hunyuan-A13B-Instruct는 80B 매개변수 중 단 13B만 활성화하면서도 주류 벤치마크에서 더 큰 LLM과 맞먹습니다. 이는 하이브리드 추론을 제공합니다: 저지연 “빠른” 모드 또는 고정밀 “느린” 모드, 호출당 전환 가능합니다. 네이티브 256 K-token 컨텍스트는 책 길이의 문서를 열화 없이 소화할 수 있게 해줍니다. 에이전트 기술은 BFCL-v3, τ-Bench 및 C3-Bench 리더십에 맞춰 조정되어 있으며, 이를 훌륭한 자율형 어시스턴트 백본으로 만듭니다. 그룹화된 쿼리 주의력 및 다형식 양자화는 메모리 부담이 적고 GPU 효율적인 Inference를 위해 실사용 배포 시 지원하며, 내장된 다국어 지원과 견고한 안전 정렬로 기업급 애플리케이션에 적합합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct

Kimi K2는 예외적인 코딩 및 에이전트 기능을 갖춘 Mixture-of-Experts (MoE) 기반 Model로, 총 1조 개의 매개변수와 320억 개의 활성화된 매개변수를 특징으로 합니다. 일반 지식 추론, 프로그래밍, 수학 및 에이전트 관련 작업을 포함한 벤치마크 평가에서 K2 Model은 다른 주요 오픈 소스 모델을 능가합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.58

/ M Tokens

Output:

$

2.29

/ M Tokens

Qwen

Text Generation

Qwen3-32B

Qwen3-32B는 최신 대규모 언어 모델로, Qwen 시리즈에서 32.8B 파라미터를 보유하고 있습니다. 이 모델은 독창적으로 사고 모드(복잡한 논리적 추론, 수학 및 코딩)를 일반 대화용 비사고 모드로 원활하게 전환할 수 있도록 지원합니다. 수학, 코드 생성 및 상식적 논리 추론에서 이전 QwQ와 Qwen2.5 지시 모델을 뛰어넘는 크게 향상된 추론 능력을 보여줍니다. 이 모델은 창의적 글쓰기, 롤플레잉 및 다중 턴 대화에서 인간 선호도 조정에 뛰어납니다. 또한 100개 이상의 언어와 방언을 강력한 다국어 지시 따름 및 번역 기능을 통해 지원합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-14B

Qwen3-14B는 14.8B 매개변수를 갖춘 Qwen 시리즈의 최신 대형 언어 모델입니다. 이 Model은 복잡한 논리적 추론, 수학, 코딩을 위한 사고 모드와 효율적이고 일반적인 대화를 위한 비사고 모드 간의 원활한 전환을 독특하게 지원합니다. 이는 수치, 코드 생성 및 상식적 논리 추론에서 이전 QwQ 및 Qwen2.5 교육 모델을 능가하는 상당히 향상된 추론 능력을 보여줍니다. 이 Model은 창의적 글쓰기, 롤플레잉 및 다중 턴 대화에 대한 인간 선호도 조정에 뛰어난 능력을 발휘합니다. 또한 강력한 다국어 지침 준수 및 번역 기능을 통해 100개 이상의 언어와 방언을 지원합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-8B

Qwen3-8B는 Qwen 시리즈의 최신 대형 언어 모델로, 8.2B 매개변수를 가지고 있습니다. 이 Model은 독특하게 복잡한 논리적 추론, 수학, 코딩을 위한 사고 모드와 효율적이고 일반적인 대화를 위한 비사고 모드 간의 원활한 전환을 지원합니다. 이 모델은 수학, 코드 생성 및 상식적인 논리적 추론에서 이전 QwQ 및 Qwen2.5 지시 모델을 능가하는 상당히 향상된 추론 능력을 보여줍니다. 이 Model은 창의적 글쓰기, 역할극 및 다중 회전 대화에 대한 인간 선호 정렬에서 뛰어난 성과를 보입니다. 또한, 100개 이상의 언어 및 방언을 지원하며 강력한 다국어 지침 따르기 및 번역 기능을 제공합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.06

/ M Tokens

Output:

$

0.06

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-8B

Qwen3-Reranker-8B는 Qwen3 시리즈에서 80억 개의 매개변수를 가진 Text 재정렬 Model입니다. 이 Model은 검색 결과의 품질을 개선하고 정제하기 위해 설계되었으며, 쿼리에 대한 관련성을 기반으로 문서를 정확하게 재정렬합니다. 강력한 Qwen3 기초 Model을 기반으로 구축되어, 최대 32k의 문맥 길이로 긴 Text를 이해하는 데 탁월하고 100개 이상의 언어를 지원합니다. Qwen3-Reranker-8B Model은 다양한 Text 및 코드 검색 시나리오에서 최첨단 성능을 제공하는 유연한 시리즈의 일부입니다....

$

0.04

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-8B

Qwen3-Embedding-8B는 Qwen3 Embedding 시리즈의 최신 독점 Model로, 텍스트 Embedding 및 랭킹 작업을 위해 specifically 설계되었습니다. Qwen3 시리즈의 밀집 기반 모델을 바탕으로 구축된 이 8B 파라미터 Model은 최대 32K의 컨텍스트 길이를 지원하며 최대 4096의 차원으로 Embedding을 생성할 수 있습니다. 이 Model은 100개 이상의 언어를 지원하는 뛰어난 다중언어 기능, 긴 텍스트 이해 및 추론 능력을 물려받았습니다. MTEB 다중언어 리더보드에서 1위를 차지했으며(2025년 6월 5일 기준, 점수 70.58), 텍스트 검색, 코드 검색, 텍스트 분류, 군집화 및 비 텍스트 마이닝을 포함한 다양한 작업에서 최첨단 성능을 보여줍니다. 이 Model은 특정 작업과 시나리오에서 향상된 성능을 위해 유연한 벡터 차원(32에서 4096)과 명령어 인식 기능을 제공합니다....

Input:

$

0.04

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-4B

Qwen3-Embedding-4B는 Qwen3 Embedding 시리즈의 최신 독점 Model로, 텍스트 Embedding 및 랭킹 작업을 위해 특별히 설계되었습니다. Qwen3 시리즈의 밀집된 기초 Model을 기반으로 구축된 이 4B 매개변수 Model은 최대 32K까지의 컨텍스트 길이를 지원하며 2560까지 차원의 Embedding을 생성할 수 있습니다. 이 Model은 100개 이상의 언어를 지원하면서 뛰어난 다국어 기능을 상속받았으며, 긴 텍스트 이해 및 추론 능력을 가지고 있습니다. MTEB 다국어 리더보드에서 69.45점의 뛰어난 성능을 달성했으며, 텍스트 검색, 코드 검색, 텍스트 분류, 군집화, 이중 텍스트 마이닝을 포함한 다양한 작업에서 탁월한 결과를 보여줍니다. Model은 특정 작업 및 시나리오에서의 향상된 성능을 위한 유연한 벡터 차원(32에서 2560까지)과 지침 인식 기능을 제공하여 효율성과 효과성 사이에서 최적의 균형을 제공합니다....

Input:

$

0.02

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-0.6B

Qwen3-Reranker-0.6B는 Qwen3 시리즈의 Text 재순위 지정 Model입니다. 이는 초기 검색 시스템의 결과를 주어진 쿼리에 대한 관련성을 기준으로 문서를 재정렬하여 정제하도록 특별히 설계되었습니다. 6억 개의 매개변수와 32k의 컨텍스트 길이를 가지며, 이 Model은 강력한 다국어(100개 이상의 언어 지원), 긴 Text 이해, 그리고 Qwen3 기반의 추론 능력을 활용합니다. 평가 결과에 따르면 Qwen3-Reranker-0.6B는 MTEB-R, CMTEB-R 및 MLDR을 포함한 다양한 Text 검색 벤치마크에서 강력한 성능을 발휘합니다....

$

0.01

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-0.6B

Qwen3-Embedding-0.6B는 Qwen3 Embedding 시리즈에서 최신의 독자적인 Model로, 특히 Text 임베딩 및 랭킹 작업을 위해 설계되었습니다. Qwen3 시리즈의 밀집 기반 Model을 토대로 구축된 이 0.6B 파라미터 Model은 최대 32K까지의 컨텍스트 길이를 지원하며 최대 1024 차원의 임베딩을 생성할 수 있습니다. 이 Model은 100개 이상의 언어를 지원하는 뛰어난 다국어 기능을 상속받아 긴 Text 이해 및 추론 능력을 갖추고 있습니다. MTEB 다국어 리더보드에서 강력한 성능(점수 64.33)을 달성하고, Text 검색, 코드 검색, Text 분류, 클러스터링, 이중텍스트 마이닝을 포함한 다양한 작업에서 우수한 결과를 보여줍니다. 이 Model은 유연한 벡터 차원(32에서 1024까지)과 지시 인식 기능을 제공하여 특정 작업 및 시나리오에서 성능을 향상시켜 효율성과 효과성 모두를 우선시하는 애플리케이션에 이상적인 선택입니다....

Input:

$

0.01

/ M Tokens

Black Forest Labs

Image-to-Image

FLUX.1-Kontext-dev

$

0.015

/ Image

Qwen

Text Generation

Qwen2.5-VL-32B-Instruct

Qwen2.5-VL-32B-Instruct는 Qwen 팀에서 출시한 다중 모달 대형 언어 모델로, Qwen2.5-VL 시리즈의 일부입니다. 이 Model은 일반 객체 인식에 능숙할 뿐만 아니라 Text, 차트, 아이콘, 그래픽 및 이미지 내 레이아웃을 분석하는 데 매우 능합니다. 이는 도구를 추론하고 동적으로 지시할 수 있는 시각적 에이전트 역할을 하며, 컴퓨터와 전화기를 사용할 수 있습니다. 또한 이 Model은 이미지 내 객체를 정확하게 로컬화하고, 송장 및 표와 같은 데이터에 대한 구조화된 Output을 생성할 수 있습니다. 이전 버전 Qwen2-VL과 비교하여, 이 버전은 강화 학습을 통해 수학적 및 문제 해결 능력이 향상되었으며, 인간의 선호도에 더 잘 맞추어지도록 응답 스타일이 조정되었습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.27

/ M Tokens

Output:

$

0.27

/ M Tokens

Qwen

Text Generation

QwQ-32B

QwQ는 Qwen 시리즈의 추론 모델입니다. 기존의 명령어 조정 모델과 비교했을 때, QwQ는 사고와 추론이 가능하여 특히 어려운 문제에서 다운스트림 작업에서 상당히 향상된 성능을 발휘할 수 있습니다. QwQ-32B는 중간 크기의 추론 모델로, 최신의 추론 모델들, 예를 들어 DeepSeek-R1, o1-mini와 경쟁력 있는 성능을 발휘할 수 있습니다. 이 Model은 RoPE, SwiGLU, RMSNorm, Attention QKV bias와 같은 기술을 64개의 레이어와 GQA 아키텍처의 8개 KV를 위한 40개의 Q 주의 집중 헤드를 포함하고 있습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.15

/ M Tokens

Output:

$

0.58

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-72B-Instruct

Qwen2.5-VL은 Qwen2.5 시리즈의 Vision-language Model로 여러 측면에서 상당한 향상을 보여줍니다: 강력한 비주얼 이해력을 갖추고 공통 사물을 인식하면서 이미지 내의 텍스트, 차트, 레이아웃을 분석할 수 있으며, 논리적 사고와 도구를 동적으로 지시할 수 있는 비주얼 에이전트로 기능합니다. 그것은 1시간 이상 길이의 Video를 이해하고 주요 이벤트를 포착할 수 있으며, 이미지 내 사물을 정확히 찾아 경계 상자 또는 포인트를 생성할 수 있습니다. 또한 송장 및 양식과 같은 스캔된 데이터에 대한 구조적 결과물을 지원합니다. 이 Model은 Image, Video, 에이전트 작업을 포함한 다양한 벤치마크에서 우수한 성능을 보여줍니다....

Total Context:

131K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Qwen-32B는 Qwen2.5-32B를 기반으로 한 정제된 모델입니다. 이 Model은 DeepSeek-R1에 의해 생성된 80만 개의 큐레이트된 샘플을 사용하여 미세 조정되었으며, 수학, 프로그래밍 및 논리 작업 전반에 걸쳐 뛰어난 성능을 보여줍니다. AIME 2024, MATH-500 및 GPQA Diamond를 포함한 다양한 벤치마크에서 인상적인 결과를 달성했으며, 특히 MATH-500에서 94.3%의 정확도를 기록하여 뛰어난 수학적 추론 능력을 보여줍니다....

Total Context:

131K

Max output:

131K

Input:

$

0.18

/ M Tokens

Output:

$

0.18

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct

Qwen2.5-72B-Instruct는 Alibaba Cloud에서 발표한 최신 대형 언어 모델 시리즈 중 하나입니다. 이 72B 모델은 코딩과 수학 분야에서 상당한 향상을 보여줍니다. 이 모델은 또한 29개 이상의 언어를 지원하는 다국어 지원을 제공하며, 중국어와 영어를 포함합니다. 이 모델은 특히 JSON 형식에서 지시를 따르고, 구조화된 데이터를 이해하며, 구조화된 Output을 생성하는 데 있어 현저한 개선을 보여줍니다....

Total Context:

33K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-7B-Instruct

Qwen2.5-7B-Instruct는 Alibaba Cloud에서 출시한 최신 대형 언어 모델 시리즈 중 하나입니다. 이 7B 모델은 코딩 및 수학과 같은 분야에서 상당한 개선을 보여줍니다. 이 Model은 중국어, 영어를 포함하여 29개 이상의 언어를 지원하는 다국어 지원을 제공합니다. 또한, Model은 명령어 따르기, 구조화된 데이터 이해 및 구조화된 Outputs 생성, 특히 JSON에서 눈에 띄는 향상을 보여줍니다....

Total Context:

33K

Max output:

4K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

IndexTeam

Text-to-Speech

IndexTTS-2

IndexTTS2는 대규모 TTS 시스템에서 비디오 더빙과 같은 애플리케이션의 중요한 제한 사항인 정확한 지속 시간 제어 문제를 해결하기 위해 설계된 획기적인 자동 회귀 제로샷 Text-to-Speech (TTS) 모델입니다. 이 모델은 음성 지속 시간 제어를 위한 새로운 일반적인 방법을 도입하여 두 가지 모드를 지원합니다: 하나는 생성된 tokens의 수를 명시적으로 지정하여 정확한 지속 시간을 제공하고, 다른 하나는 자동 회귀 방식으로 자유롭게 음성을 생성합니다. 더욱이, IndexTTS2는 감정 표현과 화자 정체성 사이의 구별을 달성하여 개별 프롬프트를 통해 음색과 감정을 독립적으로 제어할 수 있도록 합니다. 감정이 풍부한 표현에서 음성의 명확성을 향상시키기 위해, 이 모델은 GPT 잠재 표현을 활용하고 혁신적인 3단계 훈련 패러다임을 사용합니다. 감정 제어의 장벽을 낮추기 위해 텍스트 설명을 기반으로 한 부드러운 명령 메커니즘을 특징으로 하여 원하는 감정적 톤으로 음성 생성 효과적으로 안내하기 위해 Qwen3를 Fine-tuning하여 개발되었습니다. 실험 결과 IndexTTS2는 여러 데이터셋에서 단어 오류율, 화자 유사성, 감정 충실도에서 최첨단 제로샷 TTS 모델을 능가하는 성능을 보여줍니다....

$

7.15

/ M UTF-8 bytes

Black Forest Labs

Text-to-Image

FLUX.1-schnell

$

0.0014

/ Image

Black Forest Labs

Text-to-Image

FLUX.1-dev

$

0.014

/ Image

Fish Audio

Text-to-Speech

Fish-Speech-1.5

Fish Speech V1.5는 선도적인 오픈 소스 Text-to-Speech (TTS) Model입니다. 이 Model은 혁신적인 DualAR 아키텍처를 사용하여 이중 자회귀 변환기 디자인을 특징으로 합니다. 여러 언어를 지원하며, 영어와 중국어에 대해 300,000시간 이상의 훈련 데이터를 제공하고, 일본어에 대해서는 100,000시간 이상의 데이터를 제공합니다. TTS Arena에서의 독립적인 평가에서 이 Model은 1339의 ELO 점수로 뛰어난 성과를 보였습니다. 이 Model은 영어에 대해 3.5%의 단어 오류율(WER)과 1.2%의 문자 오류율(CER)을 달성하였고, 중국어 문자에 대해서는 1.3%의 CER을 기록하였습니다....

$

15

/ M UTF-8 bytes

FunAudioLLM

Text-to-Speech

FunAudioLLM/CosyVoice2-0.5B

CosyVoice 2는 대형 언어 모델을 기반으로 한 스트리밍 음성 합성 Model로, 통합된 스트리밍/비스트리밍 프레임워크 설계를 채택하고 있습니다. 이 Model은 유한 스칼라 양자화(FSQ)를 통해 음성 token 코드북의 활용을 강화하고, Text-음성 언어 Model 아키텍처를 단순화하며, 다양한 합성 시나리오를 지원하는 청크 인식 인과적 스트리밍 매칭 Model을 개발합니다. 스트리밍 모드에서는 초저 지연 시간 150ms를 달성하면서 비스트리밍 모드와 거의 동일한 합성 품질을 유지합니다. 버전 1.0과 비교하여 발음 오류율이 30%-50% 감소했고, MOS 점수는 5.4에서 5.53으로 향상되었으며, 감정 및 방언에 대한 세밀한 제어가 지원됩니다. 이 Model은 중국어(방언 포함: 광동어, 사천어, 상하이어, 천진어 등), 영어, 일본어, 한국어를 지원하며, 다국어 및 혼합 언어 시나리오를 지원합니다....

$

7.15

/ M UTF-8 bytes

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow