최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

최신식

AI 모델 라이브러리

하나의 API로 200개 이상의 최첨단 AI Models에서 Inference를 실행하고 몇 초 만에 배포할 수 있습니다

Moonshot AI

Text Generation

Kimi-K2.5

Kimi K2.5는 오픈 소스, 네이티브 Multimodal 에이전틱 Model로, Kimi-K2-Base 위에 약 15조 개의 혼합된 시각 및 Text token 을 지속적으로 사전 학습하여 구축되었습니다. 1T-파라미터 MoE 아키텍처(32B 활성)와 256K 컨텍스트 길이를 가지고 Vision과 언어 이해를 원활하게 통합하며, 고급 에이전틱 기능을 제공하여 인스턴트 및 사고 모드, 대화 및 에이전틱 패러다임을 모두 지원합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.23

/ M Tokens

Output:

$

3.0

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

GLM-4.6V는 동일한 매개변수 규모의 모델 중 시각적 이해에서 SOTA (State-of-the-Art) 정확도를 달성합니다. 처음으로, 시각적 모델 아키텍처에 Function Call 기능을 본질적으로 통합하여 "시각적 인식"과 "실행 가능한 행동" 간의 격차를 해소합니다. 이는 실제 비즈니스 시나리오에서 다중 모달 에이전트를 위한 통합된 기술적 기반을 제공합니다. 또한, 시각적 컨텍스트 창이 128k로 확장되어 긴 비디오 스트림 처리와 고해상도 멀티 이미지 분석을 지원합니다....

Total Context:

131K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

0.9

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

Qwen3-VL은 Qwen3 시리즈의 vision-language Model로, 다양한 vision-language(VL) 벤치마크에서 state-of-the-art(SOTA) 성능을 달성하고 있습니다. 이 Model은 최대 메가픽셀 수준의 고해상도 Image Input을 지원하며, 일반적인 시각적 이해, 다국어 OCR, 세밀한 시각적 기준 설정 및 시각적 대화에서 강력한 기능을 가지고 있습니다. Qwen3 시리즈의 일환으로서, 이는 강력한 언어 기반을 물려받아 복잡한 지시를 이해하고 실행할 수 있습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

Qwen3-VL-Thinking은 복잡한 시각적 추론 작업에 특별히 최적화된 Qwen3-VL 시리즈의 한 버전입니다. '생각 모드'를 통합하여 최종 답변을 제공하기 전에 상세한 중간 추론 단계(Chain-of-Thought)를 생성할 수 있습니다. 이 설계는 시각 질문 응답(VQA) 및 다단계 논리, 계획 및 심층 분석이 필요한 기타 Vision-언어 작업에서 Model의 성능을 크게 향상시킵니다....

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

Qwen3-VL-8B-Instruct는 Qwen3 시리즈의 Vision-언어 Model로서, 일반적인 시각 이해, 시각 중심 대화 및 이미지 내 다국어 Text 인식에서 강력한 능력을 보여줍니다....

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Instruct

Qwen3-VL-235B-A22B-Instruct는 235B 매개변수의 전문가 혼합(MoE) 비전-언어 모델로, 22B 활성화된 매개변수를 가지고 있습니다. 이는 Qwen3-VL-235B-A22B의 지침 조정 버전이며, Chat 애플리케이션에 맞춰 조정되었습니다....

Total Context:

262K

Max output:

262K

Input:

$

0.3

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Thinking

Qwen3-VL-235B-A22B-Thinking은 Qwen3-VL 시리즈 모델 중 하나로, 추론이 강화된 Thinking 에디션입니다. 이 모델은 STEM, 수학, 인과 분석, 논리적이고 증거 기반의 답변을 포함하여 많은 멀티모달(Multimodal) 추론 벤치마크에서 최첨단(SOTA) 결과를 달성합니다. 235B의 총 매개 변수와 22B의 활성 매개 변수를 갖춘 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 특징으로 합니다....

Total Context:

262K

Max output:

262K

Input:

$

0.45

/ M Tokens

Output:

$

3.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

Qwen3-VL 시리즈는 우수한 Text 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 문맥 길이, 향상된 공간 및 Video 역학 이해, 더 강력한 에이전트 상호작용 능력을 제공합니다. 엣지에서 클라우드로 확장되는 Dense 및 MoE 아키텍처에서 사용할 수 있으며, Instruct 및 추론 강화 Thinking 에디션으로 제공됩니다....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

Qwen3-VL 시리즈는 우수한 Text 이해 및 생성, 더 깊은 시각적 인식 및 추론, 확장된 문맥 길이, 향상된 공간 및 Video 역학 이해, 더 강력한 에이전트 상호작용 능력을 제공합니다. 엣지에서 클라우드로 확장되는 Dense 및 MoE 아키텍처에서 사용할 수 있으며, Instruct 및 추론 강화 Thinking 에디션으로 제공됩니다....

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-32B-Instruct

Qwen2.5-VL-32B-Instruct는 Qwen 팀에서 출시한 다중 모달 대형 언어 모델로, Qwen2.5-VL 시리즈의 일부입니다. 이 Model은 일반 객체 인식에 능숙할 뿐만 아니라 Text, 차트, 아이콘, 그래픽 및 이미지 내 레이아웃을 분석하는 데 매우 능합니다. 이는 도구를 추론하고 동적으로 지시할 수 있는 시각적 에이전트 역할을 하며, 컴퓨터와 전화기를 사용할 수 있습니다. 또한 이 Model은 이미지 내 객체를 정확하게 로컬화하고, 송장 및 표와 같은 데이터에 대한 구조화된 Output을 생성할 수 있습니다. 이전 버전 Qwen2-VL과 비교하여, 이 버전은 강화 학습을 통해 수학적 및 문제 해결 능력이 향상되었으며, 인간의 선호도에 더 잘 맞추어지도록 응답 스타일이 조정되었습니다....

Total Context:

131K

Max output:

131K

Input:

$

0.27

/ M Tokens

Output:

$

0.27

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-72B-Instruct

Qwen2.5-VL은 Qwen2.5 시리즈의 Vision-language Model로 여러 측면에서 상당한 향상을 보여줍니다: 강력한 비주얼 이해력을 갖추고 공통 사물을 인식하면서 이미지 내의 텍스트, 차트, 레이아웃을 분석할 수 있으며, 논리적 사고와 도구를 동적으로 지시할 수 있는 비주얼 에이전트로 기능합니다. 그것은 1시간 이상 길이의 Video를 이해하고 주요 이벤트를 포착할 수 있으며, 이미지 내 사물을 정확히 찾아 경계 상자 또는 포인트를 생성할 수 있습니다. 또한 송장 및 양식과 같은 스캔된 데이터에 대한 구조적 결과물을 지원합니다. 이 Model은 Image, Video, 에이전트 작업을 포함한 다양한 벤치마크에서 우수한 성능을 보여줍니다....

Total Context:

131K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

AI 개발을 가속화할 준비가 되셨나요?

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow

Korean

© 2025 SiliconFlow