
Moonshot AI
Text Generation
Kimi-K2.5
Kimi K2.5 是一种开源、原生 Multimodal 主动模型,通过在 Kimi-K2-Base 上进行大约 15 万亿混合视觉和 Text tokens 的持续预训练构建而成。凭借 1T 参数 MoE 架构(32B 活跃)和 256K 上下文长度,它无缝集成了 Vision 和语言理解与先进的主动功能,支持即时和思考模式,以及对话和主动范式。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.23
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
GLM-4.6V在相同参数规模的模型中,在视觉理解方面实现了SOTA(State-of-the-Art)准确性。首次将功能调用能力原生集成到视觉模型架构中,弥合了“视觉感知”和“可执行动作”之间的差距。这为真实商业场景中的Multimodal代理提供了统一的技术基础。此外,视觉上下文窗口已扩展到128k,支持长视频流处理和高分辨率多Image分析。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
Qwen3-VL 是 Qwen3 系列中的 Vision-语言 模型,在各种 Vision-语言 (VL) 基准测试中实现了最先进的性能(SOTA)。该 模型 支持高分辨率 Image Input,最高可达百万像素级别,并拥有在一般视觉理解、多语言 OCR、细粒度视觉对齐和视觉对话方面的强大能力。作为 Qwen3 系列的一部分,它继承了强大的语言基础,使其能够理解和执行复杂的指令。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
Qwen3-VL-Thinking 是 Qwen3-VL 系列的一个版本,专为复杂的视觉推理任务进行了优化。它引入了“思考模式”,使其在提供最终答案之前能够生成详细的中间推理步骤(思维链条)。这种设计显著提升了模型在视觉问题回答(VQA)和其他需要多步逻辑、规划和深入分析的 Vision-语言任务上的表现。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
Qwen3-VL-8B-Instruct 是 Qwen3 系列的 Vision-语言模型,展示了在通用视觉理解、以视觉为中心的对话以及图像中多语言 Text 识别方面的强大能力。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
Qwen3-VL-235B-A22B-Instruct 是一个 2350 亿参数的专家混合(MoE)Vision-语言模型,具有 220 亿激活参数。它是 Qwen3-VL-235B-A22B 的指令调优版本,并且为 Chat 应用程序对齐。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列中的模型之一,是一个经过增强推理的 Thinking 版本,在许多 Multimodal 推理基准上达到最先进的(SOTA)结果,在 STEM、数学、因果分析以及基于逻辑和证据的答案方面表现出色。它采用了一个拥有 2350 亿个总参数和 220 亿个活跃参数的专家混合(MoE)架构。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
Qwen3-VL系列提供卓越的Text理解与生成、更深入的视觉感知与推理、扩展的上下文长度、增强的空间和Video动态理解能力,以及更强的代理互动能力。可用的Dense和MoE架构从边缘到云端扩展,还有指导和推理增强的Thinking版本。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
Qwen3-VL系列提供卓越的Text理解与生成、更深入的视觉感知与推理、扩展的上下文长度、增强的空间和Video动态理解能力,以及更强的代理互动能力。可用的Dense和MoE架构从边缘到云端扩展,还有指导和推理增强的Thinking版本。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct 是由 Qwen 团队发布的多人模式大型语言模型,属于 Qwen2.5-VL 系列。这个模型不仅擅长识别常见物体,还具有分析 Text、图表、图标、图形和 Image 中布局的能力。它作为一个视觉代理,可以进行推理并动态指示工具,能够使用电脑和电话。此外,该模型可以精确定位 Image 中的对象,并为诸如发票和表格之类的数据生成结构化 Output。与之前的版本 Qwen2-VL 相比,经过强化学习调整后的这种版本增强了数学解题能力,并优化了应答风格以更好地符合人类的偏好。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
Qwen2.5-VL 是 Qwen2.5 系列中的一种 Vision-语言模型,在多个方面显示出显著增强:它具有强大的视觉理解能力,能够识别常见对象,同时分析 Image 中的文本、图表和布局;它作为一个能够推理和动态指引工具的视觉代理;它能够理解超过1小时长的视频并捕捉关键事件;它通过生成边界框或点准确定位 Image 中的物体;并支持扫描数据(如发票和表单)的结构化 Output。该模型在包括 Image、Video 和代理任务的各个基准测试中表现出色。...
上下文长度:
131K
最大输出长度:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

