DeepSeek
Text Generation
DeepSeek-V4-Pro
DeepSeek-V4-Pro is DeepSeek's flagship open-source MoE model with 1.6T total parameters and 49B activated, purpose-built for frontier-level reasoning, coding, and agentic tasks. Supporting a 1M-token context window and three reasoning effort modes up to Think Max, it achieves top-tier performance on coding benchmarks such as LiveCodeBench and Codeforces — rivaling leading closed-source models — and is released under the MIT License....
總上下文:
1049K
最大輸出:
393K
輸入:
$
1.74
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
3.48
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V4-Flash
DeepSeek-V4-Flash is DeepSeek's latest open-source MoE model featuring 284B total parameters with only 13B activated during inference, delivering high-speed generation without sacrificing capability. With native support for a 1M-token context window and three switchable reasoning modes — Non-Think, Think High, and Think Max — it offers flexible intelligence scaling from everyday tasks to complex reasoning, all under the MIT License....
總上下文:
1049K
最大輸出:
393K
輸入:
$
0.14
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.28
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.6
Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.95
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
4.0
/ M Tokens

Tencent
Text Generation
Hy3-preview
Hy3 preview is a 295B-parameter Mixture-of-Experts (MoE) language model from Tencent Hunyuan, built for production-grade agent workloads. With only 21B parameters activated per token and native 256K context support, it handles complex tasks like cross-file code refactoring, long-document analysis, and multi-step tool use, rather than just generating fluent dialogue. Hy3 scores near state-of-the-art on SWE-bench Verified and advanced STEM benchmarks, while offering three inference modes (no_think, think_low, think_high) to dynamically trade off latency and reasoning depth. Its sparse activation architecture delivers competitive intelligence at a significantly lower token cost....
總上下文:
131K
最大輸出:
262K
輸入:
$
0.0
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.0
/ M Tokens

Z.ai
Text Generation
GLM-5.1
GLM-5.1 is Z.ai's next-generation flagship model built for agentic engineering. It is designed to run continuously for hours or even longer, refining its strategy as it works—the longer it runs, the better the results....
總上下文:
205K
最大輸出:
131K
輸入:
$
1.4
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
4.4
/ M Tokens

Z.ai
Text Generation
GLM-5V-Turbo
GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....
總上下文:
205K
最大輸出:
131K
輸入:
$
1.2
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
4.0
/ M Tokens

MiniMaxAI
Text Generation
MiniMax-M2.5
MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...
總上下文:
197K
最大輸出:
131K
輸入:
$
0.3
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
1.2
/ M Tokens

Z.ai
Text Generation
GLM-5
GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....
總上下文:
205K
最大輸出:
131K
輸入:
$
0.95
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
2.55
/ M Tokens

StepFun
Text Generation
Step-3.5-Flash
Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...
總上下文:
262K
最大輸出:
66K
輸入:
$
0.1
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.3
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.5
Kimi K2.5 是一個開源的原生 Multimodal 主動 Model,通過在大約 15 萬億混合視覺和 Text token 上的不斷預訓練構建於 Kimi-K2-Base 之上。憑藉 1T 參數 MoE 架構(32B 活躍)和 256K 上下文長度,它無縫集成 Vision 和語言理解,具有先進的主動功能,支持即時和深思模式,以及對話和主動範式...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.23
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.7
GLM-4.7 是智譜的新一代旗艦模型,擁有355B 總參數和32B 啟用參數,在一般對話、推理和代理能力方面進行了全面升級。回應更加簡潔自然;寫作感覺更具沉浸感;工具調用指令被更可靠地執行;文物和代理編碼的前端修飾——以及長期任務完成效率——進一步提高。...
總上下文:
205K
最大輸出:
205K
輸入:
$
0.42
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
2.2
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2
DeepSeek-V3.2 是一個模型,能夠將高計算效率與卓越的推理和代理性能相結合。它的方法建立在三個關鍵技術突破之上:DeepSeek Sparse Attention (DSA),這是一種有效的注意力機制,顯著降低了計算複雜性,同時保持模型性能,特別針對長上下文場景進行了優化;一個可擴展的強化學習框架,使其性能可與 GPT-5 比肩,推理能力則可與其高計算版本的 Gemini-3.0-Pro 並駕齊驅;以及一個大規模代理任務合成管道,用於在使用工具的場景中整合推理,提高在複雜交互環境中的合規性和泛化能力。該模型在 2025 年國際數學奧林匹克(IMO)和國際信息學奧林匹克(IOI)中獲得金牌成績。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.42
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2-Exp
DeepSeek-V3.2-Exp 是一個實驗版本的 DeepSeek 模型,基於 V3.1-Terminus 構建。它推出 DeepSeek Sparse Attention (DSA),能夠在長上下文上進行更快、更有效的訓練和推理。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.41
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
GLM-4.6V 在與相同參數規模的模型中,實現了視覺理解的 SOTA(State-of-the-Art)準確性。首次將功能調用能力本地整合到視覺模型架構中,彌合了「視覺感知」與「可執行行動」之間的鴻溝。這為現實商務場景中的多模態代理提供了統一的技術基礎。此外,視覺上下文窗口已擴展至 128k,支持長視頻流處理和高解析度多圖像分析。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.3
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.9
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminus 是一個更新版本,基於 V3.1 的優勢,同時回應了用戶的關鍵反饋。它改善了語言的一致性,減少了中英文字混雜的情況以及偶爾出現的異常字符。此外,在代碼代理和搜尋代理的性能上也進行了升級。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1
DeepSeek-V3.1 是一個混合模型,支持思考模式和非思考模式。通過後期訓練優化,模型在工具使用和代理任務中的性能顯著提高。DeepSeek-V3.1-Think 的答案質量達到與 DeepSeek-R1-0528 相當的水平,同時回應速度更快。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3
DeepSeek-V3-0324 在幾個關鍵方面展示了相對其前代產品 DeepSeek-V3 的顯著改進,包括推理性能的重大提升、更強的前端開發能力以及更智能的工具使用能力。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.25
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1
DeepSeek-R1-0528 是一個升級的模型,顯示出在處理複雜推理任務方面的顯著改進,也提供了降低的幻覺率、增強的函數調用支持以及更好的振動編碼體驗。其性能可與 O3 和 Gemini 2.5 Pro 相媲美。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.5
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
2.18
/ M Tokens

Nex AGI
Text Generation
DeepSeek-V3.1-Nex-N1
DeepSeek-V3.1-Nex-N1 是一種大型語言模型,基於領先的開源模型開發,並通過後期訓練進行優化。此優化顯著提高了其組織能力,從而在代理任務和代碼生成與理解、工具使用以及角色扮演方面表現卓越。模型擅長將複雜任務分解為多步計劃,並主動澄清模糊之處,以確保可靠和準確的執行。...
總上下文:
131K
最大輸出:
164K
輸入:
$
0.135
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.5
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct-0905
Kimi K2-Instruct-0905,是一個最先進的專家混合(MoE)語言模型,是Kimi K2的最新、最強版本。主要特點包括增強的編碼能力,特別是前端和工具調用,內容長度擴展到256k tokens,並改善了與各種代理構架的整合。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.4
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
2
/ M Tokens
OpenAI
Text Generation
gpt-oss-120b
gpt-oss 系列是 OpenAI 的開源權重模型,旨在進行強大的推理、代理任務和多用途開發者使用案例。gpt-oss-120b 適用於生產、通用、高推理使用案例,符合單一 80GB GPU(如 NVIDIA H100 或 AMD MI300X)的需求。...
總上下文:
131K
最大輸出:
8K
輸入:
$
0.05
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.45
/ M Tokens
OpenAI
Text Generation
gpt-oss-20b
gpt-oss 系列是 OpenAI 的開放權重模型,旨在進行強大的推理、代理任務和多功能開發者使用情境。gpt-oss-20b 用於較低延遲,以及本地或專業用途。...
總上下文:
131K
最大輸出:
8K
輸入:
$
0.04
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.18
/ M Tokens

Z.ai
Text Generation
GLM-4.6
與GLM-4.5相比,GLM-4.6帶來了幾項關鍵改進,包括上下文窗口延展到200K token、更優異的編程性能、先進的推理能力、更高效的智能代理,以及更加精細的寫作。...
總上下文:
205K
最大輸出:
205K
輸入:
$
0.39
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
1.9
/ M Tokens

Z.ai
Text Generation
GLM-4.5-Air
GLM-4.5 系列模型是智能代理的基础模型。GLM-4.5-Air 采用更紧凑的设计,具有 1,060 亿个总参数和 120 亿个活动参数。它还是一种混合推理模型,提供思考模式和非思考模式。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.14
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.86
/ M Tokens

inclusionAI
Text Generation
Ling-flash-2.0
Ling-flash-2.0 是來自 inclusionAI 的一個語言模型,總共有 1000 億參數,其中 61 億在每個 token(48 億非嵌入)中被激活。作為 Ling 2.0 架構系列的一部分,它被設計為一個輕量級但功能強大的專家混合(Mixture-of-Experts, MoE)模型。其目的是在性能上達到與 400 億級密集模型和其他大型 MoE 模型相當甚至超越的水平,但具有顯著更小的活躍參數數量。該模型代表了一種通過極端架構設計和訓練方法實現高性能和效率的策略。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.14
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.57
/ M Tokens

inclusionAI
Text Generation
Ring-flash-2.0
Ring-flash-2.0 是一個高效能的思考模型,基於 Ling-flash-2.0-base 深度優化。它是一個專家混合(MoE)模型,總共擁有 100B 參數,但每次推理僅啟動 6.1B。該模型利用自主開發的 'icepop' 演算法來解決 MoE LLMs 強化學習(RL)中訓練不穩定的挑戰,使其能夠在延長的 RL 訓練周期中持續提升其複雜推理能力。Ring-flash-2.0 在數學競賽、程式碼生成和邏輯推理等具有挑戰性的基準上顯示出顯著的突破。其表現超越了 40B 參數以下的 SOTA 密集模型,並與較大型的開源重量 MoE 模型和封閉源高效能思考模型 API 相媲美。更令人驚訝的是,雖然 Ring-flash-2.0 主要設計為複雜推理,但它在創意寫作方面也顯現出強大的能力。得益於其高效架構,它實現了高速推理,顯著降低了高併發場景下思考模型的推理成本。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.14
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-480B-A35B-Instruct
Qwen3-Coder-480B-A35B-Instruct 是目前阿里巴巴發布的最具自主性代碼模型。它是一個專家混合(MoE)模型,擁有總共 4800 億參數和 350 億激活參數,實現效率和性能的平衡。該模型本地支持 256K(約 262,144)token 上下文長度,通過使用 YaRN 等外插方法可以擴展到 1 百萬 token,使其能夠處理庫規模的代碼庫和複雜的編程任務。Qwen3-Coder 專為自主代碼工作流程而設計,不僅生成代碼,還能自主地與開發者工具和環境互動以解決複雜問題。在各種代碼和自主基準測試中,其表現達到了開放模型中的先進水平,性能可媲美領先的模型如 Claude Sonnet 4。阿里巴巴還開源了 Qwen Code,一個命令行工具,旨在充分釋放其強大的自主代碼功能。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.25
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-480B-A35B
Qwen3-Coder-480B-A35B-Instruct is the most agentic code model released by Alibaba to date. It is a Mixture-of-Experts (MoE) model with 480 billion total parameters and 35 billion activated parameters, balancing efficiency and performance. The model natively supports a 256K (approximately 262,144) token context length, which can be extended up to 1 million tokens using extrapolation methods like YaRN, enabling it to handle repository-scale codebases and complex programming tasks. Qwen3-Coder is specifically designed for agentic coding workflows, where it not only generates code but also autonomously interacts with developer tools and environments to solve complex problems. It has achieved state-of-the-art results among open models on various coding and agentic benchmarks, with performance comparable to leading models like Claude Sonnet 4. Alongside the model, Alibaba has also open-sourced Qwen Code, a command-line tool designed to fully unleash its powerful agentic coding capabilities...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.25
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-30B-A3B-Instruct 是阿里巴巴的 Qwen 团队开发的 Qwen3 系列代码模型。作为一个精简和优化的模型,它在增强编码能力的同时保持了出色的性能和效率。它在复杂任务上展示了显著的性能优势,比如代理编码、代理浏览器使用和其他基础编码任务。该模型本地支持 256K tokens 的长上下文,可以扩展到 1M tokens,从而实现更好的仓库规模理解和处理。此外,它为像 Qwen Code 和 CLINE 这样的平台提供强大的代理编码支持,并具有专门设计的函数调用格式。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.07
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。它是一個專家混合(MoE)模型,擁有 305 億個總參數和 33 億個活躍參數。此版本具有關鍵的增強功能,包括在一般能力方面的重要改進,例如指令跟隨、邏輯推理、文本理解、數學、科學、編程和工具使用。在多種語言的長尾知識覆蓋率方面也顯著提升,並在主觀和開放式任務中提供了更好地對齊用戶偏好的能力,使其能夠生成更有幫助的回應和更高質量的文本。此外,它在長上下文理解能力方面得到了增強,達到 256K。這個模型僅支持非思考模式,並且在輸出中不生成 `<think></think>` 塊。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.09
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Thinking-2507
Qwen3-30B-A3B-Thinking-2507 是 Qwen3 系列中最新的思考模型,由阿里巴巴的 Qwen 团队發布。作為 Mixture-of-Experts (MoE) 模型,擁有 305 億個總參數和 33 億個活動參數,它專注於提升複雜任務的能力。該模型在推理任務上顯示了顯著提升,包括邏輯推理、數學、科學、編碼和通常需要人類專業知識的學術基準。它還顯示出明顯更好的通用能力,如遵循指令、工具使用、文本生成以及與人類偏好的對齊。該模型原生支持 256K 長上下文理解能力,可擴展到 100 萬 token。此版本專門設計為「思考模式」,通過逐步推理來解決高度複雜的問題,並且在主動性能力方面表現出色。...
總上下文:
262K
最大輸出:
131K
輸入:
$
0.09
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Instruct-2507
Qwen3-235B-A22B-Instruct-2507是阿里巴巴云Qwen团队开发的Qwen3系列的旗舰專家组合(MoE)大型語言模型。該模型總共有2350億個參數,每次正向傳遞啟動22億個參數。它作為Qwen3-235B-A22B非思考模式的更新版本發布,具有在指令跟隨、邏輯推理、文本理解、數學、科學、編碼和工具使用等一般能力方面顯著增強。此外,該模型在多種語言的長尾知識覆蓋方面提供了顯著增益,並在主觀和開放式任務中顯著更好地與用戶偏好對齊,能夠產生更有用的回應和更高質量的文本生成。值得注意的是,它本地支持擴展的256K(262,144個tokens)上下文窗口,這提高了其對長文本上下文的理解能力。本版本專門支持非思考模式,不生成<think>塊,旨在為直接問答和知識檢索等任務提供更高效和精確的回應。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.09
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B-Thinking-2507 是阿里巴巴 Qwen 团队开发的 Qwen3 大型语言模型系列的成员,专注于高度复杂的推理任务。此模型基于专家混合体(MoE)架构构建,具有 2350 亿个总参数和每个token约 220 亿个激活参数,从而在保持强大性能的同时提高计算效率。作为一个专用的“思维”模型,它在逻辑推理、数学、科学、编码和学术基准等需要人类专业知识的任务上表现显著提升,取得了开源思维模型中的最先进成果。此外,该模型具有增强的通用能力,如指令跟随、工具使用和文本生成,并且本地支持 256K 长文本理解能力,适合需要深入推理和处理长文档的场景。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.13
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.6
/ M Tokens
ByteDance
Text Generation
Seed-OSS-36B-Instruct
Seed-OSS 是由字节跳动 Seed 团队开发的一系列开源大型语言模型,旨在实现强大的长上下文处理、推理、代理能力和通用功能。在该系列中,Seed-OSS-36B-Instruct 是一个经过指令调优的模型,拥有 360 亿个参数,原生支持超长上下文长度,使其能够在一次性处理大型文档或复杂代码库。该模型专门针对推理、代码生成和代理任务(如工具使用)进行优化,同时保持平衡和优秀的通用功能。该模型的一个关键特征是“思考预算”功能,允许用户根据需要灵活调整推理长度,从而在实际应用中有效提高推理效率。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.21
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.57
/ M Tokens

BAIDU
Text Generation
ERNIE-4.5-300B-A47B
ERNIE-4.5-300B-A47B 是由百度基於專家混合(MoE)架構開發的大型語言模型。該模型總共擁有 3000 億個參數,但在推理過程中每個 token 僅激活 470 億個參數,從而平衡了強大的性能和計算效率。作為 ERNIE 4.5 系列的核心模型之一,它在 PaddlePaddle 深度學習框架上進行訓練,並在文本理解、生成、推理和編碼等任務中展示出卓越的能力。該模型利用了一種創新的多模態異質 MoE 預訓練方法,通過在文本和視覺模態上的聯合訓練有效提升了其整體能力,在指令跟隨和世界知識記憶方面顯示出顯著的結果。百度已開源此模型及系列中的其他模型,以促進人工智能技術的研究和應用。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.28
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
1.1
/ M Tokens

Tencent
Text Generation
Hunyuan-A13B-Instruct
Hunyuan-A13B-Instruct 僅啟用其 80 B 參數中的 13 B,卻能在主流基準上匹敵更大的 LLMs。它提供混合推理:每次呼叫可切換為低延遲“快速”模式或高精度“慢速”模式。內建 256 K-token 上下文,允許它在不減低功效的情況下解析書籍長度的文件。代理技能為 BFCL-v3、τ-Bench 和 C3-Bench 領導力而調校,使其成為優秀的自主助手基礎。分組查詢注意力和多格式量化提供記憶體輕量、GPU 高效的推理,適合現實世界的部署,並具備內建多語言支持和堅固的安全對齊,適用於企業級應用。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.14
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.57
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct
Kimi K2 是一個專家混合(MoE)基礎模型,具有卓越的編程和代理能力,擁有 1 兆個總參數和 320 億個激活參數。在涵蓋一般知識推理、編程、數學和代理相關任務的基準評估中,K2 模型表現優於其他領先的開源模型。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.58
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
2.29
/ M Tokens

Qwen
Text Generation
Qwen3-32B
Qwen3-32B 是 Qwen 系列中最新的大型語言模型,擁有 32.8B 的參數。此模型獨特地支持在思維模式(用於複雜的邏輯推理、數學和編程)和非思維模式(用於高效、通用目的對話)之間無縫切換。它顯示出顯著增強的推理能力,超越了之前的 QwQ 和 Qwen2.5 指導模型在數學、代碼生成和常識邏輯推理方面的表現。該模型在創意寫作、角色扮演與多輪對話的人類偏好對齊方面表現出色。此外,它支持超過 100 種語言和方言,具備強大的多語言指令跟隨和翻譯能力...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.14
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-14B
Qwen3-14B是Qwen系列中的最新大型語言模型,擁有14.8B個參數。此模型獨特地支持在思考模式(用于复杂逻辑推理、数学和编码)和非思考模式(用于高效、通用对话)之间无缝切换。它在推理能力上显著增强,超越了之前的QwQ和Qwen2.5指令模型在数学、代码生成和常识逻辑推理方面的表现。模型在创造性写作、角色扮演和多轮对话的人类偏好对齐方面表现优异。此外,它支持超过100种语言和方言,具有强大的多语言指令遵循和翻译能力...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.07
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-8B
Qwen3-8B 是 Qwen 系列中最新的大型語言模型,擁有 8.2 億個參數。此模型獨特地支持無縫切換思維模式(用於複雜的邏輯推理、數學和編碼)和非思維模式(用於高效、通用的對話)。它展示了顯著增強的推理能力,在數學、代碼生成和常識性邏輯推理方面超越了之前的 QwQ 和 Qwen2.5 指導模型。該模型在創意寫作、角色扮演和多輪對話的人類偏好對齊方面表現出色。此外,它支持 100 多種語言和方言,具備強大的多語言指令遵循和翻譯能力。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.06
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.06
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-8B
Qwen3-Reranker-8B 是 Qwen3 系列中的 80 億參數文本重新排序模型。該模型旨在通過根據查詢的相關性準確重新排序文檔來改進搜索結果的質量。基於強大的 Qwen3 基礎模型,它在理解長文本(具有 32k 上下文長度)方面表現優異,並支持超過 100 種語言。Qwen3-Reranker-8B 模型是提供各種文本和代碼檢索場景中先進性能的靈活系列的一部分。...
$
0.04
/ M Tokens
輸入:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-8B
Qwen3-Embedding-8B 是 Qwen3 Embedding 系列中最新的專有模型,專門設計用於文本嵌入和排序任務。此 8B 參數模型基於 Qwen3 系列的密集基礎模型構建,支持上下文長度達到 32K 並能生成最大 4096 維的嵌入。該模型繼承了卓越的多語言能力,支持超過 100 種語言,並具備長文本理解與推理技能。它在 MTEB 多語言排行榜上排名第 1(截至2025年6月5日,得分70.58),在多項任務中展示出最先進的性能,包括文本檢索、代碼檢索、文本分類、聚類和雙語本地語料探索。該模型提供靈活的向量維度(32 到 4096)和指令感知的功能,以提升特定任務和場景的性能。...
輸入:
$
0.04
/ M Tokens
輸入:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-4B
Qwen3-Embedding-4B 是 Qwen3 Embedding 系列中最新的專有模型,專門為文本嵌入和排名任務設計。該模型建立於 Qwen3 系列的密集基礎模型之上,擁有4B參數的模型支援長度達到32K的上下文,以及可以生成最高達到2560維度的嵌入。模型繼承了卓越的多語言能力,支援超過100種語言,並具有長文本理解和推理技能。在 MTEB 多語言排行榜上表現出色(得分69.45),並在各種任務中展示了卓越的結果,包括文本檢索、代碼檢索、文本分類、聚類以及對語料挖掘。模型提供靈活的向量維度(32到2560)以及指令感知能力,以在特定任務和場景中提升性能,實現效率和效果的最佳平衡。...
輸入:
$
0.02
/ M Tokens
輸入:
$
text
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-0.6B
Qwen3-Reranker-0.6B 是 Qwen3 系列中的文本重排序模型。它專門設計來通過根據給定查詢的相關性重新排序文檔來改進初始檢索系統的結果。此模型擁有 0.6 億個參數和 32k 的上下文長度,利用其 Qwen3 基礎的強大多語言(支持100多種語言)、長文本理解和推理能力。評估結果顯示,Qwen3-Reranker-0.6B 在各種文本檢索基準測試中達到了強勁的性能,包括 MTEB-R、CMTEB-R 和 MLDR。...
$
0.01
/ M Tokens
輸入:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-0.6B
Qwen3-Embedding-0.6B 是最先進的專有模型,屬於 Qwen3 Embedding 系列,專為文本嵌入和排序任務設計。基於 Qwen3 系列的密集基礎模型構建,此 0.6B 參數模型支持最長 32K 的上下文長度,並能生成最高達 1024 維的嵌入。該模型繼承了卓越的多語言能力,支持超過 100 種語言,並且具備長文本理解和推理技能。在 MTEB 多語言排行榜上取得了強勁的表現(得分 64.33),並在各種任務上展示了出色的結果,包括文本檢索、代碼檢索、文本分類、聚類和雙文本挖掘。該模型提供靈活的向量維度(32 至 1024)和指令感知能力,以在特定任務和場景中增強性能,成為在應用中优先考慮效率和效果的理想選擇。...
輸入:
$
0.01
/ M Tokens
輸入:
$
text
/ M Tokens

Qwen
Text Generation
QwQ-32B
QwQ 是 Qwen 系列的推理模型。與傳統的指令調優模型相比,能思考和推理的 QwQ 能在下游任務中實現顯著提升的性能,尤其是在處理困難問題時。QwQ-32B 是中型推理模型,能夠在與尖端推理模型,例如 DeepSeek-R1、o1-mini 的競爭中展示出色的性能。該模型融合了 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏差等技術,擁有 64 層和 40 個 Q 注意力頭(在 GQA 架構中,有 8 個用於 KV)...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.15
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.58
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Qwen-32B 是一個基於 Qwen2.5-32B 的蒸餾模型。此模型使用由 DeepSeek-R1 生成的 80 萬個精選樣本進行微調,並在數學、程式設計和推理任務中展現出卓越的性能。它在包括 AIME 2024、MATH-500 和 GPQA Diamond 在内的各種基準中取得了驚人的成績,在 MATH-500 中達到了 94.3% 的準確率,展示了強大的數學推理能力。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.18
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.18
/ M Tokens

Qwen
Text Generation
Qwen2.5-72B-Instruct
Qwen2.5-72B-Instruct 是阿里雲最新發布的大型語言模型系列之一。72B 模型在編碼和數學等方面顯示了顯著的改進。此模型還提供多語言支持,涵蓋超過 29 種語言,包括中文和英文。它在遵循指令、理解結構化數據以及生成結構化輸出(特別是 JSON 格式)方面顯示了顯著增強。...
總上下文:
33K
最大輸出:
4K
輸入:
$
0.59
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-7B-Instruct
Qwen2.5-7B-Instruct 是阿里雲發布的最新大型語言模型系列之一。這款 7B 模型在編程和數學等領域展示了顯著的改進。該模型還提供多語言支持,涵蓋超過 29 種語言,包括中文、英文和其他語言。模型在指令跟隨、理解結構化數據和生成結構化輸出方面,尤其是 JSON,顯示出顯著的提升。...
總上下文:
33K
最大輸出:
4K
輸入:
$
0.05
/ M Tokens
輸入:
$
text
/ M Tokens
輸出:
$
0.05
/ M Tokens

