
MiniMaxAI
Text Generation
MiniMax-M2.5
MiniMax-M2.5是MiniMax最新的大型语言模型,经过数以万计真实复杂环境的强化学习训练。基于229B参数的MoE架构,它在编码、智能工具使用、搜索和办公方面达到了最先进的表现,在SWE-Bench Verified上得分80.2%,其推理速度比M2.1快37%。...
上下文长度:
197K
最大输出长度:
131K
Input:
$
0.3
/ M Tokens
Output:
$
1.2
/ M Tokens

Z.ai
Text Generation
GLM-5
GLM-5 是一款面向复杂系统工程和长时间自主任务的下一代开源模型,扩展到约744B稀疏参数(约40B激活)和约28.5T预训练tokens。它集成了DeepSeek稀疏注意力(DSA),在减少推理成本的同时保留了长上下文能力,并利用“slime”异步RL堆栈,在推理、编码和自主基准测试中提供强大的性能。...
上下文长度:
205K
最大输出长度:
131K
Input:
$
0.3
/ M Tokens
Output:
$
2.55
/ M Tokens

StepFun
Text Generation
Step-3.5-Flash
步骤 3.5 Flash 是 StepFun 最强大的开源基础模型,基于稀疏专家混合(MoE)架构构建,总参数为 1960 亿,仅每个 token 激活 110 亿。它支持 262K 的上下文窗口,通过三路多 token 预测 (MTP-3) 实现 100-300 tok/s 的生成吞吐量。该模型擅长编码和代理任务,在 SWE-bench Verified 上获得 74.4% 的成绩,在 Terminal-Bench 2.0 上获得 51.0%的成绩。...
上下文长度:
262K
最大输出长度:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.3
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.5
Kimi K2.5 是一种开源、原生 Multimodal 主动模型,通过在 Kimi-K2-Base 上进行大约 15 万亿混合视觉和 Text tokens 的持续预训练构建而成。凭借 1T 参数 MoE 架构(32B 活跃)和 256K 上下文长度,它无缝集成了 Vision 和语言理解与先进的主动功能,支持即时和思考模式,以及对话和主动范式。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.23
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.7
GLM-4.7 是智谱的新一代旗舰模型,拥有 355B 的总参数和 32B 的激活参数,在一般对话、推理和代理能力方面提供了全面升级。响应更加简洁自然;写作更加身临其境;工具调用指令得到了更可靠的执行;并且工件和代理代码的前端润色以及长时间任务完成效率得到了进一步提升。...
上下文长度:
205K
最大输出长度:
205K
Input:
$
0.42
/ M Tokens
Output:
$
2.2
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2
DeepSeek-V3.2 是一个模型,结合了高计算效率与卓越的推理和智能体性能。其方法基于三个关键技术突破:DeepSeek 稀疏注意力(DSA),这是一种有效的注意力机制,在保持模型性能的情况下大幅降低了计算复杂度,特别优化于长上下文场景;一个可扩展的强化学习框架,使得其性能可与 GPT-5 比拟,推理能力与高计算变体的 Gemini-3.0-Pro 相当;以及一个大型智能任务合成管道,将推理整合到工具使用场景中,提高在复杂交互环境中的合规性和泛化能力。该模型在 2025 年国际数学奥林匹克(IMO)和国际信息学奥林匹克竞赛(IOI)中取得了金牌成绩。...
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.42
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2-Exp
DeepSeek-V3.2-Exp 是 DeepSeek 模型的一个实验版本,基于 V3.1-Terminus 构建。它首次引入 DeepSeek Sparse Attention(DSA),实现了对长上下文的更快速、更高效的训练和推理。...
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.41
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
GLM-4.6V在相同参数规模的模型中,在视觉理解方面实现了SOTA(State-of-the-Art)准确性。首次将功能调用能力原生集成到视觉模型架构中,弥合了“视觉感知”和“可执行动作”之间的差距。这为真实商业场景中的Multimodal代理提供了统一的技术基础。此外,视觉上下文窗口已扩展到128k,支持长视频流处理和高分辨率多Image分析。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus 是一个更新版本,建立在 V3.1 的优势上,同时解决关键用户反馈问题。它在语言一致性方面有所改进,减少了中英文混合文本和偶尔出现的异常字符。同时,还在 Code Agent 和 Search Agent 性能上进行了升级。...
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1
DeepSeek-V3.1是一种混合模型,支持思维模式和非思维模式。通过后期训练优化,该模型在工具使用和代理任务方面的性能显著提高。DeepSeek-V3.1-Think在回答质量上可与DeepSeek-R1-0528相媲美,同时响应速度更快。...
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3
DeepSeek-V3-0324 在多个关键方面表现出明显的改进,超越了它的前身 DeepSeek-V3,包括推理性能的大幅提升、更强的前端开发技能和更智能的工具使用能力。...
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.25
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1
DeepSeek-R1-0528 是一个升级的模型,在处理复杂的推理任务方面显示了显著的改进,同时提供了更低的幻觉率,增强了对函数调用的支持,并且在情感编码方面提供了更好的体验。其性能与 O3 和 Gemini 2.5 Pro 相当。...
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.5
/ M Tokens
Output:
$
2.18
/ M Tokens

Nex AGI
Text Generation
DeepSeek-V3.1-Nex-N1
DeepSeek-V3.1-Nex-N1 是基于领先的开源模型开发的大型语言模型,并通过训练后优化进行了优化。这种优化显著增强了它的能力,从而在代理任务和代码生成与理解、工具使用和角色扮演方面表现出色。该模型擅长将复杂任务分解为多步骤计划,并积极澄清模糊之处,以确保可靠和准确的执行。...
上下文长度:
131K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
Qwen3-VL 是 Qwen3 系列中的 Vision-语言 模型,在各种 Vision-语言 (VL) 基准测试中实现了最先进的性能(SOTA)。该 模型 支持高分辨率 Image Input,最高可达百万像素级别,并拥有在一般视觉理解、多语言 OCR、细粒度视觉对齐和视觉对话方面的强大能力。作为 Qwen3 系列的一部分,它继承了强大的语言基础,使其能够理解和执行复杂的指令。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
Qwen3-VL-Thinking 是 Qwen3-VL 系列的一个版本,专为复杂的视觉推理任务进行了优化。它引入了“思考模式”,使其在提供最终答案之前能够生成详细的中间推理步骤(思维链条)。这种设计显著提升了模型在视觉问题回答(VQA)和其他需要多步逻辑、规划和深入分析的 Vision-语言任务上的表现。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
Qwen3-VL-8B-Instruct 是 Qwen3 系列的 Vision-语言模型,展示了在通用视觉理解、以视觉为中心的对话以及图像中多语言 Text 识别方面的强大能力。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
Qwen3-VL-235B-A22B-Instruct 是一个 2350 亿参数的专家混合(MoE)Vision-语言模型,具有 220 亿激活参数。它是 Qwen3-VL-235B-A22B 的指令调优版本,并且为 Chat 应用程序对齐。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列中的模型之一,是一个经过增强推理的 Thinking 版本,在许多 Multimodal 推理基准上达到最先进的(SOTA)结果,在 STEM、数学、因果分析以及基于逻辑和证据的答案方面表现出色。它采用了一个拥有 2350 亿个总参数和 220 亿个活跃参数的专家混合(MoE)架构。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
Qwen3-VL系列提供卓越的Text理解与生成、更深入的视觉感知与推理、扩展的上下文长度、增强的空间和Video动态理解能力,以及更强的代理互动能力。可用的Dense和MoE架构从边缘到云端扩展,还有指导和推理增强的Thinking版本。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
Qwen3-VL系列提供卓越的Text理解与生成、更深入的视觉感知与推理、扩展的上下文长度、增强的空间和Video动态理解能力,以及更强的代理互动能力。可用的Dense和MoE架构从边缘到云端扩展,还有指导和推理增强的Thinking版本。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct-0905
Kimi K2-Instruct-0905,是一个最先进的专家混合(MoE)语言模型,是Kimi K2的最新、最强版本。关键特性包括增强的编码能力,尤其是前端和工具调用,文本长度扩展到256k tokens,并且与各种代理框架的集成得到了改进。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.4
/ M Tokens
Output:
$
2
/ M Tokens
OpenAI
Text Generation
gpt-oss-120b
gpt-oss 系列是 OpenAI 的开源模型,旨在用于强大的推理、代理任务和多功能的开发者使用案例。gpt-oss-120b 用于生产、通用、高推理使用案例,这些使用案例适合单个 80GB GPU(如 NVIDIA H100 或 AMD MI300X)。...
上下文长度:
131K
最大输出长度:
8K
Input:
$
0.05
/ M Tokens
Output:
$
0.45
/ M Tokens
OpenAI
Text Generation
gpt-oss-20b
gpt-oss系列是OpenAI的开源权重模型,旨在实现强大的推理、代理任务和多样化的开发者使用场景。gpt-oss-20b适用于较低延迟、本地或专业化使用场景。...
上下文长度:
131K
最大输出长度:
8K
Input:
$
0.04
/ M Tokens
Output:
$
0.18
/ M Tokens

Z.ai
Text Generation
GLM-4.6
与GLM-4.5相比,GLM-4.6带来了几个关键改进,包括将上下文窗口扩展到200K tokens、更优异的编码性能、先进的推理能力、更有能力的代理以及精炼的写作。...
上下文长度:
205K
最大输出长度:
205K
Input:
$
0.39
/ M Tokens
Output:
$
1.9
/ M Tokens

Z.ai
Text Generation
GLM-4.5-Air
GLM-4.5系列模型是为智能代理设计的基础模型。GLM-4.5-Air采用了更紧凑的设计,拥有1060亿个总参数和120亿个活动参数。它还是一种混合推理模型,提供思维模式和非思维模式。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

inclusionAI
Text Generation
Ling-flash-2.0
Ling-flash-2.0 是来自 inclusionAI 的一种语言模型,拥有总共1000亿个参数,其中每个 token 激活了61亿个(48亿个非Embedding)。作为 Ling 2.0 架构系列的一部分,它被设计为一种轻量级但强大的专家混合(MoE)模型。它旨在提供可与40B级密集模型和其他更大的 MoE 模型相媲美甚至超越的性能,但活跃参数数量明显更少。该模型代表了一种策略,专注于通过极端的架构设计和训练方法实现高性能和高效率。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

inclusionAI
Text Generation
Ring-flash-2.0
Ring-flash-2.0 是一种高性能的思维模型,基于 Ling-flash-2.0-base 深度优化。它是一个专家混合模型 (MoE),总共有100B参数,但每次推理仅激活6.1B。该模型利用自主开发的“icepop”算法解决了强化学习 (RL) 中 MoE LLMs 的训练不稳定性挑战,能够在延长的 RL 训练周期中不断提升其复杂的推理能力。Ring-flash-2.0 在包括数学竞赛、代码生成和逻辑推理在内的挑战性基准上显示出显著的突破。其性能超越了40B参数以下的 SOTA 密集模型,并与更大的开放权重 MoE 模型和闭源高性能思维模型 API 相匹敌。更令人惊讶的是,尽管 Ring-flash-2.0 主要设计用于复杂推理,它在创意写作方面也表现出强大的能力。得益于其高效的架构,它实现了高速推理,大大降低了高并发场景中思维模型的推理成本。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-480B-A35B-Instruct
Qwen3-Coder-480B-A35B-Instruct 是迄今为止阿里巴巴发布的最具自主性的代码模型。它是一个专家混合(MoE)模型,具有4800亿个总参数和350亿个激活参数,平衡了效率和性能。该模型本身支持256K(大约262,144)个token的上下文长度,可以通过YaRN等外推方法扩展到最多100万个tokens,使其能够处理存储库规模的代码库和复杂的编程任务。Qwen3-Coder 专门为自主编码工作流程而设计,它不仅能够生成代码,还能自主与开发者工具和环境交互,以解决复杂问题。在各种编码和自主基准测试中,它已在开源模型中取得最先进的结果,其性能可与领先模型如 Claude Sonnet 4 相媲美。除了模型之外,阿里巴巴还开源了 Qwen Code,这是一种旨在充分释放其强大自主编码能力的命令行工具。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.25
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-30B-A3B-Instruct 是由阿里巴巴的 Qwen 团队开发的 Qwen3 系列的一个代码模型。作为一个精简和优化的模型,它在提升编码能力的同时保持了令人印象深刻的性能和效率。它在复杂任务中表现出显著的性能优势,如 Agentic Coding、Agentic Browser-Use 和其他基础编码任务。该模型本地支持 256K token 的长上下文,可以扩展到 1M token,从而实现更好的库级理解和处理。此外,它为 Qwen Code 和 CLINE 等平台提供了强大的 Agentic 编码支持,具有专门设计的函数调用格式。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。它是一个拥有 305 亿个总参数和 33 亿个激活参数的专家混合 (MoE) 模型。这个版本具有关键的增强功能,包括在指令遵循、逻辑推理、Text 理解、数学、科学、编码和工具使用等一般能力方面的显著改进。它还在多语言长尾知识覆盖方面显示出显著的提高,并在主观和开放式任务中与用户偏好有更好的对齐,能够提供更有帮助的响应和更高质量的 Text 生成。此外,它在长上下文理解方面的能力已增强至 256K。此模型仅支持非思考模式,并且不会在其 Output 中生成 `<think></think>` 块。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.09
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Thinking-2507
Qwen3-30B-A3B-Thinking-2507 是 Qwen3 系列中最新的思考模型,由阿里巴巴的 Qwen 团队发布。作为一个 Mixture-of-Experts (MoE) 模型,拥有总计305亿个参数和33亿个活跃参数,它专注于增强复杂任务的能力。该模型在推理任务上展示了显著提高的性能,包括逻辑推理、数学、科学、编码和通常需要人类专长的学术基准测试。它还表现出显著更好的一般能力,例如遵循指令、工具使用、Text 生成和对人类偏好的对齐。该模型原生支持256K长上下文理解能力,并且可以扩展到100万个tokens。该版本专为‘思考模式’而设计,以通过逐步推理解决高度复杂的问题,并在代理能力方面也表现出色。...
上下文长度:
262K
最大输出长度:
131K
Input:
$
0.09
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Instruct-2507
Qwen3-235B-A22B-Instruct-2507 是 Qwen3 系列中由阿里云的 Qwen 团队开发的旗舰专家混合(MoE)大型语言模型。该模型总共有 2350 亿个参数,每次前向传递激活 220 亿个参数。它作为 Qwen3-235B-A22B 非思考模式的更新版本发布,在指令跟随、逻辑推理、Text 理解、数学、科学、编码和工具使用等一般能力方面进行了重大改进。此外,该模型在多种语言的长尾知识覆盖方面提供了巨大的提升,并在主观和开放性任务中显示出与用户偏好的更好对齐,从而能够生成更有帮助的响应和更高质量的 Text 生成。值得注意的是,它本身支持一个广泛的 256K(262,144 tokens)上下文窗口,增强了其长上下文理解能力。此版本仅支持非思考模式,不生成 <think> 块,旨在为直接问答和知识检索等任务提供更有效和精准的响应。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.09
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B-Thinking-2507 是 Qwen3 大型语言模型系列的成员,由阿里巴巴的 Qwen 团队开发,专门从事高度复杂的推理任务。该模型基于专家混合(MoE)架构,具有 2350 亿个总参数,约 220 亿个激活参数每个 token,增强了计算效率,同时保持了强大的性能。作为一个专门的“思考”模型,它在需要人类专业知识的任务中表现出显著的性能改进,例如逻辑推理、数学、科学、编码和学术基准,获取了开源思考模型中最先进的成果。此外,该模型具有增强的通用能力,如指令跟随、工具使用和 Text 生成,并原生支持 256K 长上下文理解能力,使其在需要深度推理和处理长文档的场景中表现出色。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.13
/ M Tokens
Output:
$
0.6
/ M Tokens
ByteDance
Text Generation
Seed-OSS-36B-Instruct
Seed-OSS 是由字节跳动 Seed 团队开发的一系列开源大型语言模型,旨在实现强大的长上下文处理、推理、代理能力和通用能力。在此系列中,Seed-OSS-36B-Instruct 是一个经过指令调整的模型,具有 360 亿个参数,支持超长上下文长度,能够在单次通过中处理大量文档或复杂代码库。这个 模型 专门优化用于推理、代码生成和代理任务(如工具使用),同时保持平衡且卓越的通用能力。这个 模型 的一个关键功能是“思维预算”功能,允许用户根据需要灵活调整推理长度,从而在实际应用中有效提高 推理 效率。...
上下文长度:
262K
最大输出长度:
262K
Input:
$
0.21
/ M Tokens
Output:
$
0.57
/ M Tokens

BAIDU
Text Generation
ERNIE-4.5-300B-A47B
ERNIE-4.5-300B-A47B是百度根据专家混合(MoE)架构开发的大型语言模型。该模型总共有3000亿个参数,但在推理期间每个token仅激活47亿个参数,从而在强大的性能和计算效率之间取得平衡。作为ERNIE 4.5系列的核心模型之一,它在PaddlePaddle深度学习框架上进行训练,并在文本理解、生成、推理和编码等任务中展现出卓越的能力。该模型采用创新的异构Multimodal MoE预训练方法,通过文本和视觉模态上的联合训练,有效增强其整体能力,在指令执行和世界知识记忆方面表现突出。百度已开源此模型及系列中的其他模型,以促进AI技术的研究和应用。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.28
/ M Tokens
Output:
$
1.1
/ M Tokens

Tencent
Text Generation
Hunyuan-A13B-Instruct
Hunyuan-A13B-Instruct仅激活其80 B参数中的13 B,但在主流基准测试中与更大的LLMs匹配。它提供混合推理:低延迟的“快速”模式或高精度的“慢速”模式,可以在每次调用时切换。本地256 K-token上下文让它能够处理书籍长度的文档而不退化。代理技能为BFCL-v3、τ-Bench和C3-Bench领导进行了调优,使其成为出色的自主助手骨干。分组查询注意力加上多格式量化提供记忆轻、GPU高效的推理,用于现实世界的部署,具有内置的多语言支持和企业级应用的强大安全对齐。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct
Kimi K2 是一款专家混合(MoE)基础模型,具备卓越的编码和代理能力,拥有 1 万亿总参数和 320 亿激活参数。在涵盖常识推理、编程、数学和代理相关任务的基准评估中,K2 模型表现优于其他领先的开源模型。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.58
/ M Tokens
Output:
$
2.29
/ M Tokens

Qwen
Text Generation
Qwen3-32B
Qwen3-32B是Qwen系列中的最新大型语言模型,拥有32.8B的参数。此模型独特地支持在思维模式(用于复杂逻辑推理、数学和编程)和非思维模式(用于高效的通用对话)之间无缝切换。它表现出显著增强的推理能力,超越了先前的QwQ和Qwen2.5 instruct模型在数学、代码生成和常识逻辑推理方面的表现。该模型在创意写作、角色扮演和多轮对话的人类偏好对齐方面表现出色。此外,它支持超过100种语言和方言,具有强大的多语言指令遵循和翻译能力...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.14
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-14B
Qwen3-14B 是 Qwen 系列中的最新大型语言模型,拥有 14.8B 参数。该模型独特地支持在思维模式(用于复杂的逻辑推理、数学和编程)和非思维模式(用于高效的通用对话)之间无缝切换。它展示了显著增强的推理能力,超越了之前的 QwQ 和 Qwen2.5 instruct 模型在数学、代码生成和常识性逻辑推理方面的表现。模型在人类偏好对齐方面表现出色,适用于创意写作、角色扮演和多轮对话。此外,它支持 100 多种语言和方言,具有强大的多语言指令跟随和翻译能力。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.07
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-8B
Qwen3-8B是Qwen系列中最新的大型语言模型,具有8.2B参数。该模型独特地支持在思维模式(用于复杂的逻辑推理、数学和编码)和非思维模式(用于高效、通用的对话)之间无缝切换。它在推理能力上显著增强,超越了之前的QwQ和Qwen2.5指令模型,在数学、代码生成和常识逻辑推理方面表现出色。该模型在人类偏好对齐方面表现优异,适用于创意写作、角色扮演和多轮对话。此外,它支持100多种语言和方言,具有强大的多语言指令跟随和翻译能力。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.06
/ M Tokens
Output:
$
0.06
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct 是由 Qwen 团队发布的多人模式大型语言模型,属于 Qwen2.5-VL 系列。这个模型不仅擅长识别常见物体,还具有分析 Text、图表、图标、图形和 Image 中布局的能力。它作为一个视觉代理,可以进行推理并动态指示工具,能够使用电脑和电话。此外,该模型可以精确定位 Image 中的对象,并为诸如发票和表格之类的数据生成结构化 Output。与之前的版本 Qwen2-VL 相比,经过强化学习调整后的这种版本增强了数学解题能力,并优化了应答风格以更好地符合人类的偏好。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
QwQ-32B
QwQ是Qwen系列的推理模型。与传统指令调整模型相比,QwQ能够思考和推理,可以在下游任务中实现显著增强的性能,特别是难题。QwQ-32B是中型推理模型,能够在性能上与最先进的推理模型,例如DeepSeek-R1、o1-mini竞争。该模型融入了RoPE、SwiGLU、RMSNorm和Attention QKV bias等技术,具有64层和40个Q注意力头(8个用于GQA架构中的KV)...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.15
/ M Tokens
Output:
$
0.58
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
Qwen2.5-VL 是 Qwen2.5 系列中的一种 Vision-语言模型,在多个方面显示出显著增强:它具有强大的视觉理解能力,能够识别常见对象,同时分析 Image 中的文本、图表和布局;它作为一个能够推理和动态指引工具的视觉代理;它能够理解超过1小时长的视频并捕捉关键事件;它通过生成边界框或点准确定位 Image 中的物体;并支持扫描数据(如发票和表单)的结构化 Output。该模型在包括 Image、Video 和代理任务的各个基准测试中表现出色。...
上下文长度:
131K
最大输出长度:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Qwen-32B 是一个基于 Qwen2.5-32B 的蒸馏模型。该模型使用 DeepSeek-R1 生成的 80 万精选样本进行了微调,并在数学、编程和推理任务中表现卓越。它在包括 AIME 2024、MATH-500 和 GPQA Diamond 在内的各项基准测试中取得了令人印象深刻的成绩,其中在 MATH-500 上的准确率达到 94.3%,展示了其强大的数学推理能力。...
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.18
/ M Tokens
Output:
$
0.18
/ M Tokens

Qwen
Text Generation
Qwen2.5-72B-Instruct
Qwen2.5-72B-Instruct 是阿里云发布的最新大型语言模型系列之一。72B 模型在编码和数学等领域表现出显著的改进。该模型还提供多语言支持,涵盖超过29种语言,包括中文和英语。它在遵循指令、理解结构化数据以及生成结构化 Output 方面显示出显著的改进,尤其是在 JSON 格式方面。...
上下文长度:
33K
最大输出长度:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-7B-Instruct
Qwen2.5-7B-Instruct 是阿里云发布的最新大型语言模型系列之一。这个 7B 模型在编码和数学等领域表现出显著的改进。该模型还提供多语言支持,涵盖 29 种以上的语言,包括中文、英语等。模型在指令遵循、理解结构化数据和生成结构化 Output(特别是 JSON)方面显示出显著的增强。...
上下文长度:
33K
最大输出长度:
4K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens

