尖端技术

AI 模型库

一个API可以对200多个尖端AI模型进行推理,并在几秒钟内部署

尖端技术

AI 模型库

一个API可以对200多个尖端AI模型进行推理,并在几秒钟内部署

尖端技术

AI 模型库

一个API可以对200多个尖端AI模型进行推理,并在几秒钟内部署

DeepSeek

chat

DeepSeek-V4-Pro

DeepSeek-V4-Pro is DeepSeek's flagship open-source MoE model with 1.6T total parameters and 49B activated, purpose-built for frontier-level reasoning, coding, and agentic tasks. Supporting a 1M-token context window and three reasoning effort modes up to Think Max, it achieves top-tier performance on coding benchmarks such as LiveCodeBench and Codeforces — rivaling leading closed-source models — and is released under the MIT License....

上下文长度:

1049K

最大输出长度:

393K

Input:

$

1.74

/ M Tokens

Input:

$

0.145

/ M Tokens

Output:

$

3.48

/ M Tokens

DeepSeek

chat

DeepSeek-V4-Flash

DeepSeek-V4-Flash is DeepSeek's latest open-source MoE model featuring 284B total parameters with only 13B activated during inference, delivering high-speed generation without sacrificing capability. With native support for a 1M-token context window and three switchable reasoning modes — Non-Think, Think High, and Think Max — it offers flexible intelligence scaling from everyday tasks to complex reasoning, all under the MIT License....

上下文长度:

1049K

最大输出长度:

393K

Input:

$

0.14

/ M Tokens

Input:

$

0.028

/ M Tokens

Output:

$

0.28

/ M Tokens

Moonshot AI

chat

Kimi-K2.6

Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.9

/ M Tokens

Input:

$

0.2

/ M Tokens

Output:

$

4.0

/ M Tokens

Tencent

chat

Hy3-preview

Hy3 preview is a 295B-parameter Mixture-of-Experts (MoE) language model from Tencent Hunyuan, built for production-grade agent workloads. With only 21B parameters activated per token and native 256K context support, it handles complex tasks like cross-file code refactoring, long-document analysis, and multi-step tool use, rather than just generating fluent dialogue. Hy3 scores near state-of-the-art on SWE-bench Verified and advanced STEM benchmarks, while offering three inference modes (no_think, think_low, think_high) to dynamically trade off latency and reasoning depth. Its sparse activation architecture delivers competitive intelligence at a significantly lower token cost....

上下文长度:

131K

最大输出长度:

262K

Input:

$

0.066

/ M Tokens

Input:

$

0.029

/ M Tokens

Output:

$

0.26

/ M Tokens

Z.ai

chat

GLM-5.1

GLM-5.1 is Z.ai's next-generation flagship model built for agentic engineering. It is designed to run continuously for hours or even longer, refining its strategy as it works—the longer it runs, the better the results....

上下文长度:

205K

最大输出长度:

131K

Input:

$

1.4

/ M Tokens

Input:

$

0.26

/ M Tokens

Output:

$

4.4

/ M Tokens

Qwen

chat

Qwen3.6-35B-A3B

Qwen3.6-35B-A3B is a large language model from Alibaba's Qwen3.6 series, featuring a Mixture of Experts (MoE) architecture with 35 billion total parameters and approximately 3 billion active parameters per inference, delivering strong performance with efficient compute utilization. The model supports both thinking and non-thinking modes, offering flexible switching between rapid response and deep reasoning...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.6

/ M Tokens

Qwen

chat

Qwen3.6-27B

Qwen3.6-27B is the first open-weight small-to-mid-sized dense model in the Qwen3.6 series, with targeted improvements for code generation, agent workflows, and real-world development tasks. Compared with Qwen3.5-27B, it delivers clear gains in frontend development, repository-level reasoning, tool use, and complex problem solving, while adding support for preserving reasoning context across turns to reduce redundant reasoning in iterative workflows. It also supports vision understanding with a native context length of 262,144 tokens...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.3

/ M Tokens

Output:

$

3.2

/ M Tokens

Z.ai

chat

GLM-5V-Turbo

GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....

上下文长度:

205K

最大输出长度:

131K

Input:

$

1.2

/ M Tokens

Input:

$

0.24

/ M Tokens

Output:

$

4.0

/ M Tokens

Qwen

chat

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B is the latest vision-language model in the Qwen series, featuring a Mixture-of-Experts (MoE) architecture with 397B total parameters and 17B activated parameters. It natively supports 256K context length, extensible to approximately 1M tokens, with support for 201 languages, unified vision-language understanding, tool calling, and reasoning (thinking) mode...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.39

/ M Tokens

Output:

$

2.34

/ M Tokens

Qwen

chat

Qwen3.5-122B-A10B

Qwen3.5-122B-A10B is a native multimodal large language model from the Qwen team, with 122B total parameters and only 10B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 256K context length extensible up to ~1M tokens. Through early fusion training, it achieves unified vision-language capabilities supporting text, image, and video understanding, with strong performance across knowledge, reasoning, coding, agents, visual understanding, and multilingual benchmarks, surpassing GPT-5-mini and Qwen3-235B-A22B on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.26

/ M Tokens

Output:

$

2.08

/ M Tokens

Qwen

chat

Qwen3.5-35B-A3B

Qwen3.5-35B-A3B is a native multimodal large language model from the Qwen team, with 35B total parameters and only 3B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.24

/ M Tokens

Output:

$

1.8

/ M Tokens

Qwen

chat

Qwen3.5-27B

Qwen3.5-27B is a native multimodal large language model from the Qwen team with 27B parameters. It features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 256K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks, surpassing Qwen3-235B-A22B and GPT-5-mini on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.25

/ M Tokens

Output:

$

2.0

/ M Tokens

Qwen

chat

Qwen3.5-9B

Qwen3.5-9B is a native multimodal large language model from the Qwen team with 9B parameters. As a lightweight dense model in the Qwen3.5 series, it features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.1

/ M Tokens

Output:

$

0.15

/ M Tokens

MiniMaxAI

chat

MiniMax-M2.5

MiniMax-M2.5是MiniMax最新的大型语言模型,经过数以万计真实复杂环境的强化学习训练。基于229B参数的MoE架构,它在编码、智能工具使用、搜索和办公方面达到了最先进的表现,在SWE-Bench Verified上得分80.2%,其推理速度比M2.1快37%。...

上下文长度:

197K

最大输出长度:

131K

Input:

$

0.3

/ M Tokens

Input:

$

0.03

/ M Tokens

Output:

$

1.2

/ M Tokens

Z.ai

chat

GLM-5

GLM-5 是一款面向复杂系统工程和长时间自主任务的下一代开源模型,扩展到约744B稀疏参数(约40B激活)和约28.5T预训练tokens。它集成了DeepSeek稀疏注意力(DSA),在减少推理成本的同时保留了长上下文能力,并利用“slime”异步RL堆栈,在推理、编码和自主基准测试中提供强大的性能。...

上下文长度:

205K

最大输出长度:

131K

Input:

$

0.95

/ M Tokens

Input:

$

0.2

/ M Tokens

Output:

$

2.55

/ M Tokens

StepFun

chat

Step-3.5-Flash

步骤 3.5 Flash 是 StepFun 最强大的开源基础模型,基于稀疏专家混合(MoE)架构构建,总参数为 1960 亿,仅每个 token 激活 110 亿。它支持 262K 的上下文窗口,通过三路多 token 预测 (MTP-3) 实现 100-300 tok/s 的生成吞吐量。该模型擅长编码和代理任务,在 SWE-bench Verified 上获得 74.4% 的成绩,在 Terminal-Bench 2.0 上获得 51.0%的成绩。...

上下文长度:

262K

最大输出长度:

66K

Input:

$

0.1

/ M Tokens

Output:

$

0.3

/ M Tokens

Moonshot AI

chat

Kimi-K2.5

Kimi K2.5 是一种开源、原生 Multimodal 主动模型,通过在 Kimi-K2-Base 上进行大约 15 万亿混合视觉和 Text tokens 的持续预训练构建而成。凭借 1T 参数 MoE 架构(32B 活跃)和 256K 上下文长度,它无缝集成了 Vision 和语言理解与先进的主动功能,支持即时和思考模式,以及对话和主动范式。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.45

/ M Tokens

Input:

$

0.07

/ M Tokens

Output:

$

2.25

/ M Tokens

Google

chat

gemma-4-26B-A4B-it

Gemma 4 26B is Google DeepMind's latest open-source MoE model, built on a 26B-parameter Mixture of Experts architecture that activates only 3.8B parameters during inference for exceptionally fast token throughput. Purpose-built for advanced reasoning and agentic workflows, it ranks #6 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.12

/ M Tokens

Output:

$

0.4

/ M Tokens

Google

chat

gemma-4-31B-it

Gemma 4 31B is Google DeepMind's latest open-source model, built on a 31B dense architecture from the same research foundation as Gemini 3. Purpose-built for advanced reasoning and agentic workflows, it ranks #3 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.13

/ M Tokens

Output:

$

0.4

/ M Tokens

Z.ai

chat

GLM-4.7

GLM-4.7 是智谱的新一代旗舰模型,拥有 355B 的总参数和 32B 的激活参数,在一般对话、推理和代理能力方面提供了全面升级。响应更加简洁自然;写作更加身临其境;工具调用指令得到了更可靠的执行;并且工件和代理代码的前端润色以及长时间任务完成效率得到了进一步提升。...

上下文长度:

205K

最大输出长度:

205K

Input:

$

0.42

/ M Tokens

Input:

$

0.11

/ M Tokens

Output:

$

2.2

/ M Tokens

DeepSeek

chat

DeepSeek-V3.2

DeepSeek-V3.2 是一个模型,结合了高计算效率与卓越的推理和智能体性能。其方法基于三个关键技术突破:DeepSeek 稀疏注意力(DSA),这是一种有效的注意力机制,在保持模型性能的情况下大幅降低了计算复杂度,特别优化于长上下文场景;一个可扩展的强化学习框架,使得其性能可与 GPT-5 比拟,推理能力与高计算变体的 Gemini-3.0-Pro 相当;以及一个大型智能任务合成管道,将推理整合到工具使用场景中,提高在复杂交互环境中的合规性和泛化能力。该模型在 2025 年国际数学奥林匹克(IMO)和国际信息学奥林匹克竞赛(IOI)中取得了金牌成绩。...

上下文长度:

164K

最大输出长度:

164K

Input:

$

0.27

/ M Tokens

Input:

$

0.135

/ M Tokens

Output:

$

0.42

/ M Tokens

DeepSeek

chat

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp 是 DeepSeek 模型的一个实验版本,基于 V3.1-Terminus 构建。它首次引入 DeepSeek Sparse Attention(DSA),实现了对长上下文的更快速、更高效的训练和推理。...

上下文长度:

164K

最大输出长度:

164K

Input:

$

0.27

/ M Tokens

Output:

$

0.41

/ M Tokens

Z.ai

chat

GLM-4.6V

GLM-4.6V在相同参数规模的模型中,在视觉理解方面实现了SOTA(State-of-the-Art)准确性。首次将功能调用能力原生集成到视觉模型架构中,弥合了“视觉感知”和“可执行动作”之间的差距。这为真实商业场景中的Multimodal代理提供了统一的技术基础。此外,视觉上下文窗口已扩展到128k,支持长视频流处理和高分辨率多Image分析。...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.3

/ M Tokens

Output:

$

0.9

/ M Tokens

DeepSeek

chat

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Terminus 是一个更新版本,建立在 V3.1 的优势上,同时解决关键用户反馈问题。它在语言一致性方面有所改进,减少了中英文混合文本和偶尔出现的异常字符。同时,还在 Code Agent 和 Search Agent 性能上进行了升级。...

上下文长度:

164K

最大输出长度:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-V3.1

DeepSeek-V3.1是一种混合模型,支持思维模式和非思维模式。通过后期训练优化,该模型在工具使用和代理任务方面的性能显著提高。DeepSeek-V3.1-Think在回答质量上可与DeepSeek-R1-0528相媲美,同时响应速度更快。...

上下文长度:

164K

最大输出长度:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-V3

DeepSeek-V3-0324 在多个关键方面表现出明显的改进,超越了它的前身 DeepSeek-V3,包括推理性能的大幅提升、更强的前端开发技能和更智能的工具使用能力。...

上下文长度:

164K

最大输出长度:

164K

Input:

$

0.25

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-R1

DeepSeek-R1-0528 是一个升级的模型,在处理复杂的推理任务方面显示了显著的改进,同时提供了更低的幻觉率,增强了对函数调用的支持,并且在情感编码方面提供了更好的体验。其性能与 O3 和 Gemini 2.5 Pro 相当。...

上下文长度:

164K

最大输出长度:

164K

Input:

$

0.5

/ M Tokens

Output:

$

2.18

/ M Tokens

Tongyi-MAI

text-to-image

Z-Image-Turbo

$

0.005

/ Image

Nex AGI

chat

DeepSeek-V3.1-Nex-N1

DeepSeek-V3.1-Nex-N1 是基于领先的开源模型开发的大型语言模型,并通过训练后优化进行了优化。这种优化显著增强了它的能力,从而在代理任务和代码生成与理解、工具使用和角色扮演方面表现出色。该模型擅长将复杂任务分解为多步骤计划,并积极澄清模糊之处,以确保可靠和准确的执行。...

上下文长度:

131K

最大输出长度:

164K

Input:

$

0.27

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Instruct

Qwen3-VL 是 Qwen3 系列中的 Vision-语言 模型,在各种 Vision-语言 (VL) 基准测试中实现了最先进的性能(SOTA)。该 模型 支持高分辨率 Image Input,最高可达百万像素级别,并拥有在一般视觉理解、多语言 OCR、细粒度视觉对齐和视觉对话方面的强大能力。作为 Qwen3 系列的一部分,它继承了强大的语言基础,使其能够理解和执行复杂的指令。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.2

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

chat

Qwen3-VL-32B-Thinking

Qwen3-VL-Thinking 是 Qwen3-VL 系列的一个版本,专为复杂的视觉推理任务进行了优化。它引入了“思考模式”,使其在提供最终答案之前能够生成详细的中间推理步骤(思维链条)。这种设计显著提升了模型在视觉问题回答(VQA)和其他需要多步逻辑、规划和深入分析的 Vision-语言任务上的表现。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

chat

Qwen3-VL-8B-Instruct

Qwen3-VL-8B-Instruct 是 Qwen3 系列的 Vision-语言模型,展示了在通用视觉理解、以视觉为中心的对话以及图像中多语言 Text 识别方面的强大能力。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.18

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

chat

Qwen3-VL-30B-A3B-Instruct

Qwen3-VL系列提供卓越的Text理解与生成、更深入的视觉感知与推理、扩展的上下文长度、增强的空间和Video动态理解能力,以及更强的代理互动能力。可用的Dense和MoE架构从边缘到云端扩展,还有指导和推理增强的Thinking版本。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

chat

Qwen3-VL-30B-A3B-Thinking

Qwen3-VL系列提供卓越的Text理解与生成、更深入的视觉感知与推理、扩展的上下文长度、增强的空间和Video动态理解能力,以及更强的代理互动能力。可用的Dense和MoE架构从边缘到云端扩展,还有指导和推理增强的Thinking版本。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1.0

/ M Tokens

Moonshot AI

chat

Kimi-K2-Instruct-0905

Kimi K2-Instruct-0905,是一个最先进的专家混合(MoE)语言模型,是Kimi K2的最新、最强版本。关键特性包括增强的编码能力,尤其是前端和工具调用,文本长度扩展到256k tokens,并且与各种代理框架的集成得到了改进。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.4

/ M Tokens

Output:

$

2.0

/ M Tokens

OpenAI

chat

gpt-oss-120b

gpt-oss 系列是 OpenAI 的开源模型,旨在用于强大的推理、代理任务和多功能的开发者使用案例。gpt-oss-120b 用于生产、通用、高推理使用案例,这些使用案例适合单个 80GB GPU(如 NVIDIA H100 或 AMD MI300X)。...

上下文长度:

131K

最大输出长度:

8K

Input:

$

0.05

/ M Tokens

Output:

$

0.45

/ M Tokens

OpenAI

chat

gpt-oss-20b

gpt-oss系列是OpenAI的开源权重模型,旨在实现强大的推理、代理任务和多样化的开发者使用场景。gpt-oss-20b适用于较低延迟、本地或专业化使用场景。...

上下文长度:

131K

最大输出长度:

8K

Input:

$

0.04

/ M Tokens

Output:

$

0.18

/ M Tokens

Z.ai

chat

GLM-4.6

与GLM-4.5相比,GLM-4.6带来了几个关键改进,包括将上下文窗口扩展到200K tokens、更优异的编码性能、先进的推理能力、更有能力的代理以及精炼的写作。...

上下文长度:

205K

最大输出长度:

205K

Input:

$

0.39

/ M Tokens

Output:

$

1.9

/ M Tokens

Z.ai

chat

GLM-4.5-Air

GLM-4.5系列模型是为智能代理设计的基础模型。GLM-4.5-Air采用了更紧凑的设计,拥有1060亿个总参数和120亿个活动参数。它还是一种混合推理模型,提供思维模式和非思维模式。...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.86

/ M Tokens

Qwen

image-to-video

Wan2.2-I2V-A14B

$

0.29

/ Video

Qwen

text-to-video

Wan2.2-T2V-A14B

$

0.29

/ Video

inclusionAI

chat

Ling-flash-2.0

Ling-flash-2.0 是来自 inclusionAI 的一种语言模型,拥有总共1000亿个参数,其中每个 token 激活了61亿个(48亿个非Embedding)。作为 Ling 2.0 架构系列的一部分,它被设计为一种轻量级但强大的专家混合(MoE)模型。它旨在提供可与40B级密集模型和其他更大的 MoE 模型相媲美甚至超越的性能,但活跃参数数量明显更少。该模型代表了一种策略,专注于通过极端的架构设计和训练方法实现高性能和高效率。...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

inclusionAI

chat

Ring-flash-2.0

Ring-flash-2.0 是一种高性能的思维模型,基于 Ling-flash-2.0-base 深度优化。它是一个专家混合模型 (MoE),总共有100B参数,但每次推理仅激活6.1B。该模型利用自主开发的“icepop”算法解决了强化学习 (RL) 中 MoE LLMs 的训练不稳定性挑战,能够在延长的 RL 训练周期中不断提升其复杂的推理能力。Ring-flash-2.0 在包括数学竞赛、代码生成和逻辑推理在内的挑战性基准上显示出显著的突破。其性能超越了40B参数以下的 SOTA 密集模型,并与更大的开放权重 MoE 模型和闭源高性能思维模型 API 相匹敌。更令人惊讶的是,尽管 Ring-flash-2.0 主要设计用于复杂推理,它在创意写作方面也表现出强大的能力。得益于其高效的架构,它实现了高速推理,大大降低了高并发场景中思维模型的推理成本。...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

text-to-image

Qwen-Image

$

0.02

/ Image

Qwen

image-to-image

Qwen-Image-Edit

$

0.04

/ Image

Qwen

chat

Qwen3-Coder-480B-A35B

Qwen3-Coder-480B-A35B-Instruct is the most agentic code model released by Alibaba to date. It is a Mixture-of-Experts (MoE) model with 480 billion total parameters and 35 billion activated parameters, balancing efficiency and performance. The model natively supports a 256K (approximately 262,144) token context length, which can be extended up to 1 million tokens using extrapolation methods like YaRN, enabling it to handle repository-scale codebases and complex programming tasks. Qwen3-Coder is specifically designed for agentic coding workflows, where it not only generates code but also autonomously interacts with developer tools and environments to solve complex problems. It has achieved state-of-the-art results among open models on various coding and agentic benchmarks, with performance comparable to leading models like Claude Sonnet 4. Alongside the model, Alibaba has also open-sourced Qwen Code, a command-line tool designed to fully unleash its powerful agentic coding capabilities...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.25

/ M Tokens

Input:

$

nan

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

chat

Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instruct 是由阿里巴巴的 Qwen 团队开发的 Qwen3 系列的一个代码模型。作为一个精简和优化的模型,它在提升编码能力的同时保持了令人印象深刻的性能和效率。它在复杂任务中表现出显著的性能优势,如 Agentic Coding、Agentic Browser-Use 和其他基础编码任务。该模型本地支持 256K token 的长上下文,可以扩展到 1M token,从而实现更好的库级理解和处理。此外,它为 Qwen Code 和 CLINE 等平台提供了强大的 Agentic 编码支持,具有专门设计的函数调用格式。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

chat

Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。它是一个拥有 305 亿个总参数和 33 亿个激活参数的专家混合 (MoE) 模型。这个版本具有关键的增强功能,包括在指令遵循、逻辑推理、Text 理解、数学、科学、编码和工具使用等一般能力方面的显著改进。它还在多语言长尾知识覆盖方面显示出显著的提高,并在主观和开放式任务中与用户偏好有更好的对齐,能够提供更有帮助的响应和更高质量的 Text 生成。此外,它在长上下文理解方面的能力已增强至 256K。此模型仅支持非思考模式,并且不会在其 Output 中生成 `<think></think>` 块。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

chat

Qwen3-30B-A3B-Thinking-2507

Qwen3-30B-A3B-Thinking-2507 是 Qwen3 系列中最新的思考模型,由阿里巴巴的 Qwen 团队发布。作为一个 Mixture-of-Experts (MoE) 模型,拥有总计305亿个参数和33亿个活跃参数,它专注于增强复杂任务的能力。该模型在推理任务上展示了显著提高的性能,包括逻辑推理、数学、科学、编码和通常需要人类专长的学术基准测试。它还表现出显著更好的一般能力,例如遵循指令、工具使用、Text 生成和对人类偏好的对齐。该模型原生支持256K长上下文理解能力,并且可以扩展到100万个tokens。该版本专为‘思考模式’而设计,以通过逐步推理解决高度复杂的问题,并在代理能力方面也表现出色。...

上下文长度:

262K

最大输出长度:

131K

Input:

$

0.09

/ M Tokens

Output:

$

0.3

/ M Tokens

Qwen

chat

Qwen3-235B-A22B-Instruct-2507

Qwen3-235B-A22B-Instruct-2507 是 Qwen3 系列中由阿里云的 Qwen 团队开发的旗舰专家混合(MoE)大型语言模型。该模型总共有 2350 亿个参数,每次前向传递激活 220 亿个参数。它作为 Qwen3-235B-A22B 非思考模式的更新版本发布,在指令跟随、逻辑推理、Text 理解、数学、科学、编码和工具使用等一般能力方面进行了重大改进。此外,该模型在多种语言的长尾知识覆盖方面提供了巨大的提升,并在主观和开放性任务中显示出与用户偏好的更好对齐,从而能够生成更有帮助的响应和更高质量的 Text 生成。值得注意的是,它本身支持一个广泛的 256K(262,144 tokens)上下文窗口,增强了其长上下文理解能力。此版本仅支持非思考模式,不生成 <think> 块,旨在为直接问答和知识检索等任务提供更有效和精准的响应。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.09

/ M Tokens

Output:

$

0.6

/ M Tokens

ByteDance

chat

Seed-OSS-36B-Instruct

Seed-OSS 是由字节跳动 Seed 团队开发的一系列开源大型语言模型,旨在实现强大的长上下文处理、推理、代理能力和通用能力。在此系列中,Seed-OSS-36B-Instruct 是一个经过指令调整的模型,具有 360 亿个参数,支持超长上下文长度,能够在单次通过中处理大量文档或复杂代码库。这个 模型 专门优化用于推理、代码生成和代理任务(如工具使用),同时保持平衡且卓越的通用能力。这个 模型 的一个关键功能是“思维预算”功能,允许用户根据需要灵活调整推理长度,从而在实际应用中有效提高 推理 效率。...

上下文长度:

262K

最大输出长度:

262K

Input:

$

0.21

/ M Tokens

Output:

$

0.57

/ M Tokens

Tencent

chat

Hunyuan-A13B-Instruct

Hunyuan-A13B-Instruct仅激活其80 B参数中的13 B,但在主流基准测试中与更大的LLMs匹配。它提供混合推理:低延迟的“快速”模式或高精度的“慢速”模式,可以在每次调用时切换。本地256 K-token上下文让它能够处理书籍长度的文档而不退化。代理技能为BFCL-v3、τ-Bench和C3-Bench领导进行了调优,使其成为出色的自主助手骨干。分组查询注意力加上多格式量化提供记忆轻、GPU高效的推理,用于现实世界的部署,具有内置的多语言支持和企业级应用的强大安全对齐。...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Moonshot AI

chat

Kimi-K2-Instruct

Kimi K2 是一款专家混合(MoE)基础模型,具备卓越的编码和代理能力,拥有 1 万亿总参数和 320 亿激活参数。在涵盖常识推理、编程、数学和代理相关任务的基准评估中,K2 模型表现优于其他领先的开源模型。...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.58

/ M Tokens

Output:

$

2.29

/ M Tokens

Qwen

chat

Qwen3-32B

Qwen3-32B是Qwen系列中的最新大型语言模型,拥有32.8B的参数。此模型独特地支持在思维模式(用于复杂逻辑推理、数学和编程)和非思维模式(用于高效的通用对话)之间无缝切换。它表现出显著增强的推理能力,超越了先前的QwQ和Qwen2.5 instruct模型在数学、代码生成和常识逻辑推理方面的表现。该模型在创意写作、角色扮演和多轮对话的人类偏好对齐方面表现出色。此外,它支持超过100种语言和方言,具有强大的多语言指令遵循和翻译能力...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.14

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

chat

Qwen3-14B

Qwen3-14B 是 Qwen 系列中的最新大型语言模型,拥有 14.8B 参数。该模型独特地支持在思维模式(用于复杂的逻辑推理、数学和编程)和非思维模式(用于高效的通用对话)之间无缝切换。它展示了显著增强的推理能力,超越了之前的 QwQ 和 Qwen2.5 instruct 模型在数学、代码生成和常识性逻辑推理方面的表现。模型在人类偏好对齐方面表现出色,适用于创意写作、角色扮演和多轮对话。此外,它支持 100 多种语言和方言,具有强大的多语言指令跟随和翻译能力。...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.07

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

chat

Qwen3-8B

Qwen3-8B是Qwen系列中最新的大型语言模型,具有8.2B参数。该模型独特地支持在思维模式(用于复杂的逻辑推理、数学和编码)和非思维模式(用于高效、通用的对话)之间无缝切换。它在推理能力上显著增强,超越了之前的QwQ和Qwen2.5指令模型,在数学、代码生成和常识逻辑推理方面表现出色。该模型在人类偏好对齐方面表现优异,适用于创意写作、角色扮演和多轮对话。此外,它支持100多种语言和方言,具有强大的多语言指令跟随和翻译能力。...

上下文长度:

131K

最大输出长度:

131K

Input:

$

0.06

/ M Tokens

Output:

$

0.06

/ M Tokens

Qwen

reranker

Qwen3-Reranker-8B

Qwen3-Reranker-8B 是 Qwen3 系列中的 80 亿参数 text 重排序模型。它旨在通过准确地根据与查询的相关性重新排序文档来优化和提升搜索结果的质量。基于强大的 Qwen3 基础模型构建,它在理解长文本方面表现出色,具有 32k 的上下文长度,并支持超过 100 种语言。Qwen3-Reranker-8B 模型是一个灵活系列的一部分,提供在各种 text 和代码检索场景中具有最先进的性能...

$

0.04

/ M Tokens

Qwen

embedding

Qwen3-Embedding-8B

Qwen3-Embedding-8B 是 Qwen3 Embedding 系列中的最新专有模型,专为文本嵌入和排名任务设计。该模型建立在 Qwen3 系列的密集基础模型之上,拥有 8B 参数,支持最长 32K 的上下文长度,可以生成最多 4096 维度的嵌入。该模型继承了出色的多语言功能,支持超过 100 种语言,并具备长文本理解和推理能力。截至 2025 年 6 月 5 日,它在 MTEB 多语言排行榜上排名第一(分数为 70.58),并展示了在各种任务中的最先进性能,包括文本检索、代码检索、文本分类、聚类和双文本挖掘。该模型提供灵活的向量维度(32 到 4096)和指令感知能力,增强在特定任务和场景中的表现。...

Input:

$

0.04

/ M Tokens

Qwen

embedding

Qwen3-Embedding-4B

Qwen3-Embedding-4B是Qwen3 Embedding系列中最新的专有模型,专为文本Embedding和排序任务而设计。该4B参数模型基于Qwen3系列的密集基础模型构建,支持最长32K的上下文长度,可以生成最高2560维的Embedding。该模型继承了卓越的多语言能力,支持超过100种语言,同时具备长篇文本理解和推理技能。在MTEB多语言排行榜上取得了出色的表现(得分69.45),并在各种任务中展示了优异的结果,包括文本检索、代码检索、文本分类、聚类和双语文本挖掘。该模型提供灵活的向量维度(32到2560)和指令感知能力,以增强在特定任务和场景中的性能,提供效率和效果之间的最佳平衡。...

Input:

$

0.02

/ M Tokens

Qwen

reranker

Qwen3-Reranker-0.6B

Qwen3-Reranker-0.6B 是 Qwen3 系列中的一款 Text 重新排序模型。它专门设计用于通过根据给定查询的相关性重新排序文档来优化初步检索系统的结果。该模型具有 0.6 亿个参数和 32k 的上下文长度,利用其 Qwen3 基础的强大多语言(支持 100 多种语言)、长文本理解和推理能力。评估结果显示,Qwen3-Reranker-0.6B 在各种 Text 检索基准测试中表现出色,包括 MTEB-R、CMTEB-R 和 MLDR...

$

0.01

/ M Tokens

Qwen

embedding

Qwen3-Embedding-0.6B

Qwen3-Embedding-0.6B 是 Qwen3 Embedding 系列中最新的专有模型,专为文本嵌入和排名任务而设计。基于 Qwen3 系列的密集基础模型构建,该 0.6B 参数模型支持最大 32K 的上下文长度,能够生成维度高达 1024 的嵌入。模型继承了卓越的多语种功能,支持超过 100 种语言,同时具备长文本理解和推理技能。在 MTEB 多语言排行榜上取得了强劲的表现(得分 64.33),并在包括文本检索、代码检索、文本分类、聚类和双文本挖掘等各项任务中展现出卓越的表现。模型提供了灵活的向量尺寸(32 到 1024)和指令感知能力,以增强特定任务和场景的性能表现,使其成为优先考虑效率和效能的应用的理想选择。...

Input:

$

0.01

/ M Tokens

Black Forest Labs

image-to-image

FLUX.1-Kontext-dev

$

0.015

/ Image

Qwen

chat

Qwen2.5-72B-Instruct

Qwen2.5-72B-Instruct 是阿里云发布的最新大型语言模型系列之一。72B 模型在编码和数学等领域表现出显著的改进。该模型还提供多语言支持,涵盖超过29种语言,包括中文和英语。它在遵循指令、理解结构化数据以及生成结构化 Output 方面显示出显著的改进,尤其是在 JSON 格式方面。...

上下文长度:

33K

最大输出长度:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

Qwen

chat

Qwen2.5-7B-Instruct

Qwen2.5-7B-Instruct 是阿里云发布的最新大型语言模型系列之一。这个 7B 模型在编码和数学等领域表现出显著的改进。该模型还提供多语言支持,涵盖 29 种以上的语言,包括中文、英语等。模型在指令遵循、理解结构化数据和生成结构化 Output(特别是 JSON)方面显示出显著的增强。...

上下文长度:

33K

最大输出长度:

4K

Input:

$

0.05

/ M Tokens

Output:

$

0.05

/ M Tokens

IndexTeam

text-to-speech

IndexTTS-2

IndexTTS2 是一种突破性的自回归零次学习文本到语音 (TTS) 模型,旨在解决大规模 TTS 系统中精确时长控制的挑战,这是视频配音等应用中的一个显著限制。它引入了一种创新的通用方法来进行语音时长控制,支持两种模式:一种是明确指定生成 tokens 的数量以实现精确时长,另一种是在自回归方式中自由生成语音。此外,IndexTTS2 实现了情感表达和说话者身份之间的解耦,能够通过单独的提示独立控制音色和情感。为了增强高度情感表达中的语音清晰度,该模型结合了 GPT 潜在表示,并利用了一种新颖的三阶段训练范式。为了降低情感控制的门槛,它还结合了一种基于 Text 描述的软指令机制,通过微调 Qwen3 来有效引导生成具有所需情感语气的语音。实验结果表明,IndexTTS2 在字错误率、说话者相似性和情感保真度方面优于最先进的零次学习 TTS 模型,并在多个数据集上表现出色。...

$

7.15

/ M UTF-8 bytes

Black Forest Labs

text-to-image

FLUX.1-dev

$

0.014

/ Image

Black Forest Labs

text-to-image

FLUX.1-schnell

$

0.0014

/ Image

Fish Audio

text-to-speech

Fish-Speech-1.5

Fish Speech V1.5 是一个领先的开源文本到语音(TTS)模型。该模型采用创新的 DualAR 架构,具有双自回归 transformer 设计。它支持多种语言,英语和中文的训练数据超过 300,000 小时,日语超过 100,000 小时。在 TTS Arena 的独立评估中,该模型表现非常出色,ELO 得分为 1339。该模型在英语单词错误率(WER)为 3.5% 和字符错误率(CER)为 1.2%,中文字符错误率(CER)为 1.3% 的评估中表现优异。...

$

15.0

/ M UTF-8 bytes

FunAudioLLM

text-to-speech

FunAudioLLM/CosyVoice2-0.5B

CosyVoice 2 是一个流式语音合成模型,基于一个大型语言模型,采用统一的流式/非流式框架设计。该模型通过有限标量量化(FSQ)增强了语音token码本的利用,简化了Text到语音语言模型的架构,并开发了一种块感知因果流式匹配模型,支持不同的合成场景。在流式模式下,模型实现了150毫秒的超低延迟,同时维持了与非流式模式几乎相同的合成质量。相比1.0版本,发音错误率降低了30%-50%,MOS分数从5.4提高到5.53,并支持对情感和方言的细粒度控制。该模型支持中文(包括方言:广东话、四川话、上海话、天津话等)、英文、日文、韩文,并支持跨语言和混合语言场景。...

$

7.15

/ M UTF-8 bytes

准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?

准备好 加速您的人工智能开发吗?