🎉 MiniMax-M2.5可在 SiliconFlow 上使用。現在就試試看。

模型

產品

定價

文檔

部落格

關於

聯繫

最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

All

Featured

LLM

Vision

Image

Video

Audio

Text Generation

Embedding

Reranker

供應商

MiniMaxAI

Text Generation

MiniMax-M2.5

發行日期：2026年2月15日

MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...

總上下文：

197K

最大輸出：

131K

輸入：

0.3

/ M Tokens

輸出：

1.2

/ M Tokens

Z.ai

Text Generation

GLM-5

發行日期：2026年2月12日

GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....

總上下文：

205K

最大輸出：

131K

輸入：

0.3

/ M Tokens

輸出：

2.55

/ M Tokens

StepFun

Text Generation

Step-3.5-Flash

發行日期：2026年2月11日

Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...

總上下文：

262K

最大輸出：

66K

輸入：

0.1

/ M Tokens

輸出：

0.3

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.5

發行日期：2026年1月30日

Kimi K2.5 是一個開源的原生 Multimodal 主動 Model，通過在大約 15 萬億混合視覺和 Text token 上的不斷預訓練構建於 Kimi-K2-Base 之上。憑藉 1T 參數 MoE 架構（32B 活躍）和 256K 上下文長度，它無縫集成 Vision 和語言理解，具有先進的主動功能，支持即時和深思模式，以及對話和主動範式...

總上下文：

262K

最大輸出：

262K

輸入：

0.23

/ M Tokens

輸出：

3.0

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M2.1

發行日期：2025年12月23日

MiniMax-M2.1 是一個開源的大型語言模型，專為代理能力優化，擅長編程、工具使用、指導跟隨和長期計劃。它支持多語言軟體開發和複雜的多步驟工作流程，在 SWE-bench Verified 上達到 74.0，並在多語言場景中超過 Claude Sonnet 4.5。...

總上下文：

197K

最大輸出：

131K

輸入：

0.29

/ M Tokens

輸出：

1.2

/ M Tokens

Z.ai

Text Generation

GLM-4.7

發行日期：2025年12月23日

GLM-4.7 是智譜的新一代旗艦模型，擁有355B 總參數和32B 啟用參數，在一般對話、推理和代理能力方面進行了全面升級。回應更加簡潔自然；寫作感覺更具沉浸感；工具調用指令被更可靠地執行；文物和代理編碼的前端修飾——以及長期任務完成效率——進一步提高。...

總上下文：

205K

最大輸出：

205K

輸入：

0.42

/ M Tokens

輸出：

2.2

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2

發行日期：2025年12月4日

DeepSeek-V3.2 是一個模型，能夠將高計算效率與卓越的推理和代理性能相結合。它的方法建立在三個關鍵技術突破之上：DeepSeek Sparse Attention (DSA)，這是一種有效的注意力機制，顯著降低了計算複雜性，同時保持模型性能，特別針對長上下文場景進行了優化；一個可擴展的強化學習框架，使其性能可與 GPT-5 比肩，推理能力則可與其高計算版本的 Gemini-3.0-Pro 並駕齊驅；以及一個大規模代理任務合成管道，用於在使用工具的場景中整合推理，提高在複雜交互環境中的合規性和泛化能力。該模型在 2025 年國際數學奧林匹克(IMO)和國際信息學奧林匹克(IOI)中獲得金牌成績。...

總上下文：

164K

最大輸出：

164K

輸入：

0.27

/ M Tokens

輸出：

0.42

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2-Exp

發行日期：2025年10月10日

DeepSeek-V3.2-Exp 是一個實驗版本的 DeepSeek 模型，基於 V3.1-Terminus 構建。它推出 DeepSeek Sparse Attention (DSA)，能夠在長上下文上進行更快、更有效的訓練和推理。...

總上下文：

164K

最大輸出：

164K

輸入：

0.27

/ M Tokens

輸出：

0.41

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

發行日期：2025年12月8日

GLM-4.6V 在與相同參數規模的模型中，實現了視覺理解的 SOTA（State-of-the-Art）準確性。首次將功能調用能力本地整合到視覺模型架構中，彌合了「視覺感知」與「可執行行動」之間的鴻溝。這為現實商務場景中的多模態代理提供了統一的技術基礎。此外，視覺上下文窗口已擴展至 128k，支持長視頻流處理和高解析度多圖像分析。...

總上下文：

131K

最大輸出：

131K

輸入：

0.3

/ M Tokens

輸出：

0.9

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1-Terminus

發行日期：2025年9月29日

DeepSeek-V3.1-Terminus 是一個更新版本，基於 V3.1 的優勢，同時回應了用戶的關鍵反饋。它改善了語言的一致性，減少了中英文字混雜的情況以及偶爾出現的異常字符。此外，在代碼代理和搜尋代理的性能上也進行了升級。...

總上下文：

164K

最大輸出：

164K

輸入：

0.27

/ M Tokens

輸出：

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1

發行日期：2025年8月25日

DeepSeek-V3.1 是一個混合模型，支持思考模式和非思考模式。通過後期訓練優化，模型在工具使用和代理任務中的性能顯著提高。DeepSeek-V3.1-Think 的答案質量達到與 DeepSeek-R1-0528 相當的水平，同時回應速度更快。...

總上下文：

164K

最大輸出：

164K

輸入：

0.27

/ M Tokens

輸出：

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3

發行日期：2024年12月26日

DeepSeek-V3-0324 在幾個關鍵方面展示了相對其前代產品 DeepSeek-V3 的顯著改進，包括推理性能的重大提升、更強的前端開發能力以及更智能的工具使用能力。...

總上下文：

164K

最大輸出：

164K

輸入：

0.25

/ M Tokens

輸出：

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1

發行日期：2025年5月28日

DeepSeek-R1-0528 是一個升級的模型，顯示出在處理複雜推理任務方面的顯著改進，也提供了降低的幻覺率、增強的函數調用支持以及更好的振動編碼體驗。其性能可與 O3 和 Gemini 2.5 Pro 相媲美。...

總上下文：

164K

最大輸出：

164K

輸入：

0.5

/ M Tokens

輸出：

2.18

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

發行日期：2025年10月21日

Qwen3-VL 是 Qwen3 系列中的視覺-語言模型，在各種視覺-語言（VL）基準測試中取得了最先進（SOTA）的表現。該模型支持高達百萬像素的高解析度圖像輸入，並具備強大的一般視覺理解能力、多語言 OCR、細微的視覺定位和視覺對話能力。作為 Qwen3 系列的一部分，它繼承了強大的語言基礎，使其能夠理解和執行複雜的指令。...

總上下文：

262K

最大輸出：

262K

輸入：

0.2

/ M Tokens

輸出：

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

發行日期：2025年10月21日

Qwen3-VL-Thinking 是 Qwen3-VL 系列中特別優化於複雜視覺推理任務的版本。它融合了一種“思考模式”，使其在提供最終答案之前能夠生成詳細的中間推理步驟（思維鏈）。此設計顯著提高了模型在視覺問答（VQA）和其他視覺-語言任務中需要多步邏輯、規劃和深入分析之性能。...

總上下文：

262K

最大輸出：

262K

輸入：

0.2

/ M Tokens

輸出：

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

發行日期：2025年10月15日

Qwen3-VL-8B-Instruct 是 Qwen3 系列的視覺-語言模型，展示了在一般視覺理解、以視覺為中心的對話和圖像中的多語言文本識別方面的強大能力。...

總上下文：

262K

最大輸出：

262K

輸入：

0.18

/ M Tokens

輸出：

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Thinking

發行日期：2025年10月15日

Qwen3-VL-8B-Thinking 是 Qwen3 系列中一款視覺-語言模型，專為需要複雜推理的場景而優化。在這個思考模式中，模型在提供最終答案之前會進行逐步的思考和推理。...

總上下文：

262K

最大輸出：

262K

輸入：

0.18

/ M Tokens

輸出：

2.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Instruct

發行日期：2025年10月4日

Qwen3-VL-235B-A22B-Instruct 是基於 235B 參數的專家混合 (MoE) 視覺-語言模型，具有 22B 啟動參數。這是一個經過指令調整的 Qwen3-VL-235B-A22B 版本，適用於聊天應用程式。...

總上下文：

262K

最大輸出：

262K

輸入：

0.3

/ M Tokens

輸出：

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Thinking

發行日期：2025年10月4日

Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列模型的一種，這是一個增強推理能力的 Thinking 版本，在許多多模態推理基準中達到了最先進的 (SOTA) 成果，尤其在 STEM、數學、因果分析和邏輯、證據為基礎的答案中表現卓越。它具有一種專家混合 (MoE) 架構，總參數量為 235B，活躍參數量為 22B。...

總上下文：

262K

最大輸出：

262K

輸入：

0.45

/ M Tokens

輸出：

3.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

發行日期：2025年10月5日

Qwen3-VL系列提供卓越的文本理解與生成、更深入的視覺感知與推理、擴展的上下文長度、增強的空間與視頻動態理解，以及更強的代理互動能力。可提供緻密型和MoE架構，從邊緣計算擴展到雲端，並有指導型和加強推理的Thinking版本。...

總上下文：

262K

最大輸出：

262K

輸入：

0.29

/ M Tokens

輸出：

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

發行日期：2025年10月11日

總上下文：

262K

最大輸出：

262K

輸入：

0.29

/ M Tokens

輸出：

1.0

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Thinking

發行日期：2025年11月7日

Kimi K2 Thinking 是最新、最具能力的開源思考模型版本。從 Kimi K2 開始，我們將其構建為一個視情況調用工具的逐步推理思考代理。它在人類最後考試（HLE）、BrowseComp 和其他基準測試中樹立了新的前沿，通過戲劇性地擴展多步推理深度，並在 200–300 次連續調用中保持穩定的工具使用。同時，K2 Thinking 是一個原生的 INT4 量化模型，擁有 262k 的上下文窗口，在減少推理延遲和 GPU 記憶體使用方面實現無損縮減。...

總上下文：

262K

最大輸出：

262K

輸入：

0.55

/ M Tokens

輸出：

2.5

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct-0905

發行日期：2025年9月8日

Kimi K2-Instruct-0905，是一個最先進的專家混合（MoE）語言模型，是Kimi K2的最新、最強版本。主要特點包括增強的編碼能力，特別是前端和工具調用，內容長度擴展到256k tokens，並改善了與各種代理構架的整合。...

總上下文：

262K

最大輸出：

262K

輸入：

0.4

/ M Tokens

輸出：

2.0

/ M Tokens

OpenAI

Text Generation

gpt-oss-120b

發行日期：2025年8月13日

gpt-oss 系列是 OpenAI 的開源權重模型，旨在進行強大的推理、代理任務和多用途開發者使用案例。gpt-oss-120b 適用於生產、通用、高推理使用案例，符合單一 80GB GPU（如 NVIDIA H100 或 AMD MI300X）的需求。...

總上下文：

131K

最大輸出：

輸入：

0.05

/ M Tokens

輸出：

0.45

/ M Tokens

OpenAI

Text Generation

gpt-oss-20b

發行日期：2025年8月13日

gpt-oss 系列是 OpenAI 的開放權重模型，旨在進行強大的推理、代理任務和多功能開發者使用情境。gpt-oss-20b 用於較低延遲，以及本地或專業用途。...

總上下文：

131K

最大輸出：

輸入：

0.04

/ M Tokens

輸出：

0.18

/ M Tokens

Z.ai

Text Generation

GLM-4.6

發行日期：2025年10月4日

與GLM-4.5相比，GLM-4.6帶來了幾項關鍵改進，包括上下文窗口延展到200K token、更優異的編程性能、先進的推理能力、更高效的智能代理，以及更加精細的寫作。...

總上下文：

205K

最大輸出：

205K

輸入：

0.39

/ M Tokens

輸出：

1.9

/ M Tokens

Z.ai

Text Generation

GLM-4.5-Air

發行日期：2025年7月28日

GLM-4.5 系列模型是智能代理的基础模型。GLM-4.5-Air 采用更紧凑的设计，具有 1,060 亿个总参数和 120 亿个活动参数。它还是一种混合推理模型，提供思考模式和非思考模式。...

總上下文：

131K

最大輸出：

131K

輸入：

0.14

/ M Tokens

輸出：

0.86

/ M Tokens

Z.ai

Text Generation

GLM-4.5V

發行日期：2025年8月13日

作為GLM-V模型家族的一部分，GLM-4.5V基於智普AI的基礎模型GLM-4.5-Air，在圖像、視頻和文檔理解以及GUI代理操作等任務上達到最先進的性能。...

總上下文：

66K

最大輸出：

66K

輸入：

0.14

/ M Tokens

輸出：

0.86

/ M Tokens

inclusionAI

Text Generation

Ling-flash-2.0

發行日期：2025年9月18日

Ling-flash-2.0 是來自 inclusionAI 的一個語言模型，總共有 1000 億參數，其中 61 億在每個 token（48 億非嵌入）中被激活。作為 Ling 2.0 架構系列的一部分，它被設計為一個輕量級但功能強大的專家混合（Mixture-of-Experts, MoE）模型。其目的是在性能上達到與 400 億級密集模型和其他大型 MoE 模型相當甚至超越的水平，但具有顯著更小的活躍參數數量。該模型代表了一種通過極端架構設計和訓練方法實現高性能和效率的策略。...

總上下文：

131K

最大輸出：

131K

輸入：

0.14

/ M Tokens

輸出：

0.57

/ M Tokens

inclusionAI

Text Generation

Ling-mini-2.0

發行日期：2025年9月10日

Ling-mini-2.0 是一個小型但高性能的大型語言模型，基於 MoE 架構構建。它總共有 160 億個參數，但每個 token 僅激活 14 億（非嵌入 7.89 億），從而實現了極快的生成速度。由於高效的 MoE 設計和大規模高品質的訓練數據，儘管僅有 14 億激活參數，Ling-mini-2.0 仍然能夠提供與低於 100 億密集 LLM 和更大 MoE 模型相媲美的頂級下游任務性能。...

總上下文：

131K

最大輸出：

131K

輸入：

0.07

/ M Tokens

輸出：

0.28

/ M Tokens

inclusionAI

Text Generation

Ring-flash-2.0

發行日期：2025年9月29日

Ring-flash-2.0 是一個高效能的思考模型，基於 Ling-flash-2.0-base 深度優化。它是一個專家混合（MoE）模型，總共擁有 100B 參數，但每次推理僅啟動 6.1B。該模型利用自主開發的 'icepop' 演算法來解決 MoE LLMs 強化學習（RL）中訓練不穩定的挑戰，使其能夠在延長的 RL 訓練周期中持續提升其複雜推理能力。Ring-flash-2.0 在數學競賽、程式碼生成和邏輯推理等具有挑戰性的基準上顯示出顯著的突破。其表現超越了 40B 參數以下的 SOTA 密集模型，並與較大型的開源重量 MoE 模型和封閉源高效能思考模型 API 相媲美。更令人驚訝的是，雖然 Ring-flash-2.0 主要設計為複雜推理，但它在創意寫作方面也顯現出強大的能力。得益於其高效架構，它實現了高速推理，顯著降低了高併發場景下思考模型的推理成本。...

總上下文：

131K

最大輸出：

131K

輸入：

0.14

/ M Tokens

輸出：

0.57

/ M Tokens

Tencent

Text Generation

Hunyuan-MT-7B

發行日期：2025年9月18日

混元翻譯模型由翻譯模型 Hunyuan-MT-7B 和集成模型 Hunyuan-MT-Chimera 組成。Hunyuan-MT-7B 是一個輕量級翻譯模型，具有 70 億參數，用於將源文本翻譯成目標語言。該模型支持包括中國五種少數民族語言在內的 33 種語言的互譯。在 WMT25 機器翻譯比賽中，Hunyuan-MT-7B 在其參與的 31 個語言類別中獲得了 30 個第一名，展示了其出色的翻譯能力。為了翻譯任務，騰訊混元提出了一個涵蓋預訓練、監督微調、翻譯增強和集成改進的綜合訓練框架，在同類規模的模型中達到最先進的性能。該模型計算效率高，易於部署，適用於各種應用場景。...

總上下文：

33K

最大輸出：

33K

輸入：

0.0

/ M Tokens

輸出：

0.0

/ M Tokens

Qwen

Text Generation

Qwen3-Next-80B-A3B-Instruct

發行日期：2025年9月18日

Qwen3-Next-80B-A3B-Instruct 是由阿里巴巴的 Qwen 團隊推出的下一代基礎模型。它基於新的 Qwen3-Next 架構，旨在實現終極訓練和推理效率。該模型融合了創新特性，如混合注意力機制（Gated DeltaNet 和門控注意力）、高稀疏度專家混合模型 (MoE) 結構，以及各種穩定性優化。作為一個具有 800 億參數的稀疏模型，它在推理過程中每個 token 只激活約 30 億參數，大大降低了計算成本，並且在長上下文任務中實現了比 Qwen3-32B 模型高出 10 倍以上的吞吐量，超出 32K tokens 。這是一個為通用任務優化的指令調整版本，不支持“思考”模式。在性能方面，它可與 Qwen 的旗艦模型 Qwen3-235B 相媲美，並在超長上下文場景中顯示出顯著優勢。...

總上下文：

262K

最大輸出：

262K

輸入：

0.14

/ M Tokens

輸出：

1.4

/ M Tokens

Qwen

Text Generation

Qwen3-Next-80B-A3B-Thinking

發行日期：2025年9月25日

Qwen3-Next-80B-A3B-Thinking 是阿里巴巴 Qwen 團隊的一個次世代基礎模型，專門設計用於複雜的推理任務。它建立在創新的 Qwen3-Next 架構之上，結合了混合注意力機制（閘控 DeltaNet 和閘控注意力）與高稀疏度專家混合（MoE）結構，以實現最終的訓練和推理效率。作為一個800億參數的稀疏模型，它在推理過程中僅激活約30億參數，大大降低了計算成本，並在超過32K token 的長上下文任務中提供超過10倍於 Qwen3-32B 模型的處理能力。此“Thinking”版本針對數學證明、代碼合成、邏輯分析和代理規劃等高要求的多步驟問題進行優化，並默認輸出結構化的“thinking”軌跡。在性能方面，它超越了更高成本的模型如 Qwen3-32B-Thinking，並在多個基準測試中勝過 Gemini-2.5-Flash-Thinking。...

總上下文：

262K

最大輸出：

262K

輸入：

0.14

/ M Tokens

輸出：

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Captioner

發行日期：2025年10月4日

Qwen3-Omni-30B-A3B-Captioner 是來自阿里巴巴 Qwen 團隊的視覺語言模型 (VLM)，屬於 Qwen3 系列的一部分。它專門為生成高品質、詳細且準確的圖像說明而設計。基於 30B 總參數專家混合 (MoE) 架構，該模型可以深入理解圖像內容並將其轉化為豐富自然的語言文本。...

總上下文：

66K

最大輸出：

66K

輸入：

0.1

/ M Tokens

輸出：

0.4

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Instruct

發行日期：2025年10月4日

Qwen3-Omni-30B-A3B-Instruct 是來自阿里巴巴 Qwen 團隊最新 Qwen3 系列的成員。它是由 300 億個總參數和 30 億個有效參數組成的專家混合（MoE）模型，能夠在保持強大性能的同時有效降低推理成本。該模型在高品質、多來源、多語言數據上訓練，並展示了在多語種對話、程式碼和數學等基本能力中的卓越表現。...

總上下文：

66K

最大輸出：

66K

輸入：

0.1

/ M Tokens

輸出：

0.4

/ M Tokens

Qwen

Text Generation

Qwen3-Omni-30B-A3B-Thinking

發行日期：2025年10月4日

Qwen3-Omni-30B-A3B-思考是 Qwen3-Omni 全模態模型的核心“思維者”組件。它專門設計用於處理多模態輸入，包括文本、音頻、圖片和視頻，並執行複雜的連珠推理。作為系統的推理大腦，這個模型將所有輸入統一為一個共同的表徵空間進行理解和分析，但其輸出僅為文本。這種設計使其在解決需要深入思考和跨模式理解的複雜問題（如圖像中呈現的數學問題）方面表現出色，使其成為整個 Qwen3-Omni 架構強大認知能力的關鍵。...

總上下文：

66K

最大輸出：

66K

輸入：

0.1

/ M Tokens

輸出：

0.4

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-480B-A35B-Instruct

發行日期：2025年7月31日

Qwen3-Coder-480B-A35B-Instruct 是目前阿里巴巴發布的最具自主性代碼模型。它是一個專家混合（MoE）模型，擁有總共 4800 億參數和 350 億激活參數，實現效率和性能的平衡。該模型本地支持 256K（約 262,144）token 上下文長度，通過使用 YaRN 等外插方法可以擴展到 1 百萬 token，使其能夠處理庫規模的代碼庫和複雜的編程任務。Qwen3-Coder 專為自主代碼工作流程而設計，不僅生成代碼，還能自主地與開發者工具和環境互動以解決複雜問題。在各種代碼和自主基準測試中，其表現達到了開放模型中的先進水平，性能可媲美領先的模型如 Claude Sonnet 4。阿里巴巴還開源了 Qwen Code，一個命令行工具，旨在充分釋放其強大的自主代碼功能。...

總上下文：

262K

最大輸出：

262K

輸入：

0.25

/ M Tokens

輸出：

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-30B-A3B-Instruct

發行日期：2025年8月1日

Qwen3-Coder-30B-A3B-Instruct 是阿里巴巴的 Qwen 团队开发的 Qwen3 系列代码模型。作为一个精简和优化的模型，它在增强编码能力的同时保持了出色的性能和效率。它在复杂任务上展示了显著的性能优势，比如代理编码、代理浏览器使用和其他基础编码任务。该模型本地支持 256K tokens 的长上下文，可以扩展到 1M tokens，从而实现更好的仓库规模理解和处理。此外，它为像 Qwen Code 和 CLINE 这样的平台提供强大的代理编码支持，并具有专门设计的函数调用格式。...

總上下文：

262K

最大輸出：

262K

輸入：

0.07

/ M Tokens

輸出：

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Instruct-2507

發行日期：2025年7月30日

Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。它是一個專家混合（MoE）模型，擁有 305 億個總參數和 33 億個活躍參數。此版本具有關鍵的增強功能，包括在一般能力方面的重要改進，例如指令跟隨、邏輯推理、文本理解、數學、科學、編程和工具使用。在多種語言的長尾知識覆蓋率方面也顯著提升，並在主觀和開放式任務中提供了更好地對齊用戶偏好的能力，使其能夠生成更有幫助的回應和更高質量的文本。此外，它在長上下文理解能力方面得到了增強，達到 256K。這個模型僅支持非思考模式，並且在輸出中不生成 `<think></think>` 塊。...

總上下文：

262K

最大輸出：

262K

輸入：

0.09

/ M Tokens

輸出：

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Thinking-2507

發行日期：2025年7月31日

Qwen3-30B-A3B-Thinking-2507 是 Qwen3 系列中最新的思考模型，由阿里巴巴的 Qwen 团队發布。作為 Mixture-of-Experts (MoE) 模型，擁有 305 億個總參數和 33 億個活動參數，它專注於提升複雜任務的能力。該模型在推理任務上顯示了顯著提升，包括邏輯推理、數學、科學、編碼和通常需要人類專業知識的學術基準。它還顯示出明顯更好的通用能力，如遵循指令、工具使用、文本生成以及與人類偏好的對齊。該模型原生支持 256K 長上下文理解能力，可擴展到 100 萬 token。此版本專門設計為「思考模式」，通過逐步推理來解決高度複雜的問題，並且在主動性能力方面表現出色。...

總上下文：

262K

最大輸出：

131K

輸入：

0.09

/ M Tokens

輸出：

0.3

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Instruct-2507

發行日期：2025年7月23日

Qwen3-235B-A22B-Instruct-2507是阿里巴巴云Qwen团队开发的Qwen3系列的旗舰專家组合（MoE）大型語言模型。該模型總共有2350億個參數，每次正向傳遞啟動22億個參數。它作為Qwen3-235B-A22B非思考模式的更新版本發布，具有在指令跟隨、邏輯推理、文本理解、數學、科學、編碼和工具使用等一般能力方面顯著增強。此外，該模型在多種語言的長尾知識覆蓋方面提供了顯著增益，並在主觀和開放式任務中顯著更好地與用戶偏好對齊，能夠產生更有用的回應和更高質量的文本生成。值得注意的是，它本地支持擴展的256K（262,144個tokens）上下文窗口，這提高了其對長文本上下文的理解能力。本版本專門支持非思考模式，不生成<think>塊，旨在為直接問答和知識檢索等任務提供更高效和精確的回應。...

總上下文：

262K

最大輸出：

262K

輸入：

0.09

/ M Tokens

輸出：

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-235B-A22B-Thinking-2507

發行日期：2025年7月28日

Qwen3-235B-A22B-Thinking-2507 是阿里巴巴 Qwen 团队开发的 Qwen3 大型语言模型系列的成员，专注于高度复杂的推理任务。此模型基于专家混合体(MoE)架构构建，具有 2350 亿个总参数和每个token约 220 亿个激活参数，从而在保持强大性能的同时提高计算效率。作为一个专用的“思维”模型，它在逻辑推理、数学、科学、编码和学术基准等需要人类专业知识的任务上表现显著提升，取得了开源思维模型中的最先进成果。此外，该模型具有增强的通用能力，如指令跟随、工具使用和文本生成，并且本地支持 256K 长文本理解能力，适合需要深入推理和处理长文档的场景。...

總上下文：

262K

最大輸出：

262K

輸入：

0.13

/ M Tokens

輸出：

0.6

/ M Tokens

ByteDance

Text Generation

Seed-OSS-36B-Instruct

發行日期：2025年9月4日

Seed-OSS 是由字节跳动 Seed 团队开发的一系列开源大型语言模型，旨在实现强大的长上下文处理、推理、代理能力和通用功能。在该系列中，Seed-OSS-36B-Instruct 是一个经过指令调优的模型，拥有 360 亿个参数，原生支持超长上下文长度，使其能够在一次性处理大型文档或复杂代码库。该模型专门针对推理、代码生成和代理任务（如工具使用）进行优化，同时保持平衡和优秀的通用功能。该模型的一个关键特征是“思考预算”功能，允许用户根据需要灵活调整推理长度，从而在实际应用中有效提高推理效率。...

總上下文：

262K

最大輸出：

262K

輸入：

0.21

/ M Tokens

輸出：

0.57

/ M Tokens

BAIDU

Text Generation

ERNIE-4.5-300B-A47B

發行日期：2025年7月2日

ERNIE-4.5-300B-A47B 是由百度基於專家混合（MoE）架構開發的大型語言模型。該模型總共擁有 3000 億個參數，但在推理過程中每個 token 僅激活 470 億個參數，從而平衡了強大的性能和計算效率。作為 ERNIE 4.5 系列的核心模型之一，它在 PaddlePaddle 深度學習框架上進行訓練，並在文本理解、生成、推理和編碼等任務中展示出卓越的能力。該模型利用了一種創新的多模態異質 MoE 預訓練方法，通過在文本和視覺模態上的聯合訓練有效提升了其整體能力，在指令跟隨和世界知識記憶方面顯示出顯著的結果。百度已開源此模型及系列中的其他模型，以促進人工智能技術的研究和應用。...

總上下文：

131K

最大輸出：

131K

輸入：

0.28

/ M Tokens

輸出：

1.1

/ M Tokens

Tencent

Text Generation

Hunyuan-A13B-Instruct

發行日期：2025年6月30日

Hunyuan-A13B-Instruct 僅啟用其 80 B 參數中的 13 B，卻能在主流基準上匹敵更大的 LLMs。它提供混合推理：每次呼叫可切換為低延遲“快速”模式或高精度“慢速”模式。內建 256 K-token 上下文，允許它在不減低功效的情況下解析書籍長度的文件。代理技能為 BFCL-v3、τ-Bench 和 C3-Bench 領導力而調校，使其成為優秀的自主助手基礎。分組查詢注意力和多格式量化提供記憶體輕量、GPU 高效的推理，適合現實世界的部署，並具備內建多語言支持和堅固的安全對齊，適用於企業級應用。...

總上下文：

131K

最大輸出：

131K

輸入：

0.14

/ M Tokens

輸出：

0.57

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2-Instruct

發行日期：2025年7月13日

Kimi K2 是一個專家混合（MoE）基礎模型，具有卓越的編程和代理能力，擁有 1 兆個總參數和 320 億個激活參數。在涵蓋一般知識推理、編程、數學和代理相關任務的基準評估中，K2 模型表現優於其他領先的開源模型。...

總上下文：

131K

最大輸出：

131K

輸入：

0.58

/ M Tokens

輸出：

2.29

/ M Tokens

Qwen

Text Generation

Qwen3-32B

發行日期：2025年4月30日

Qwen3-32B 是 Qwen 系列中最新的大型語言模型，擁有 32.8B 的參數。此模型獨特地支持在思維模式（用於複雜的邏輯推理、數學和編程）和非思維模式（用於高效、通用目的對話）之間無縫切換。它顯示出顯著增強的推理能力，超越了之前的 QwQ 和 Qwen2.5 指導模型在數學、代碼生成和常識邏輯推理方面的表現。該模型在創意寫作、角色扮演與多輪對話的人類偏好對齊方面表現出色。此外，它支持超過 100 種語言和方言，具備強大的多語言指令跟隨和翻譯能力...

總上下文：

131K

最大輸出：

131K

輸入：

0.14

/ M Tokens

輸出：

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-14B

發行日期：2025年4月30日

Qwen3-14B是Qwen系列中的最新大型語言模型，擁有14.8B個參數。此模型獨特地支持在思考模式（用于复杂逻辑推理、数学和编码）和非思考模式（用于高效、通用对话）之间无缝切换。它在推理能力上显著增强，超越了之前的QwQ和Qwen2.5指令模型在数学、代码生成和常识逻辑推理方面的表现。模型在创造性写作、角色扮演和多轮对话的人类偏好对齐方面表现优异。此外，它支持超过100种语言和方言，具有强大的多语言指令遵循和翻译能力...

總上下文：

131K

最大輸出：

131K

輸入：

0.07

/ M Tokens

輸出：

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-8B

發行日期：2025年4月30日

Qwen3-8B 是 Qwen 系列中最新的大型語言模型，擁有 8.2 億個參數。此模型獨特地支持無縫切換思維模式（用於複雜的邏輯推理、數學和編碼）和非思維模式（用於高效、通用的對話）。它展示了顯著增強的推理能力，在數學、代碼生成和常識性邏輯推理方面超越了之前的 QwQ 和 Qwen2.5 指導模型。該模型在創意寫作、角色扮演和多輪對話的人類偏好對齊方面表現出色。此外，它支持 100 多種語言和方言，具備強大的多語言指令遵循和翻譯能力。...

總上下文：

131K

最大輸出：

131K

輸入：

0.06

/ M Tokens

輸出：

0.06

/ M Tokens

Z.ai

Text Generation

GLM-Z1-32B-0414

發行日期：2025年4月18日

GLM-Z1-32B-0414 是一個具有深度思維能力的推理模型。該模型通過冷啟動和擴展增強學習，基於 GLM-4-32B-0414 開發，並在數學、代碼和邏輯任務上進一步訓練。與基礎模型相比，GLM-Z1-32B-0414 在數學能力和解決複雜任務的能力上有顯著提升。在訓練過程中，團隊還引入了基於成對排序反饋的一般增強學習，進一步提升了模型的綜合能力。儘管只有 32B 個參數，其在某些任務上的表現與具有 671B 個參數的 DeepSeek-R1 相媲美。通過在 AIME 24/25、LiveCodeBench 和 GPQA 等基準測試上的評估，該模型展示了強大的數學推理能力，能夠支持更廣泛的複雜任務解決方案...

總上下文：

131K

最大輸出：

131K

輸入：

0.14

/ M Tokens

輸出：

0.57

/ M Tokens

Z.ai

Text Generation

GLM-4-32B-0414

發行日期：2025年4月18日

GLM-4-32B-0414 是 GLM 家族中一款新一代的模型，擁有 320 億個參數。其性能可與 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列相比，並支持非常用戶友好的本地部署功能。GLM-4-32B-Base-0414 在 15T 高品質數據上進行了預訓練，包括大量推理類型的合成數據，為後續的強化學習擴展奠定了基礎。在後期訓練階段，除了進行對話場景的人類偏好對齊外，團隊還通過拒絕取樣和強化學習等技術增強了模型在指令遵循、工程代碼和函數調用方面的性能，強化了代理任務所需的原子能力。GLM-4-32B-0414 在工程代碼、Artifact 生成、函數調用、基於搜索的問答和報告生成等領域取得了良好的效果。在多個基準測試中，其性能接近甚至超過較大模型如 GPT-4o 和 DeepSeek-V3-0324 (671B) 的表現。...

總上下文：

33K

最大輸出：

33K

輸入：

0.27

/ M Tokens

輸出：

0.27

/ M Tokens

Z.ai

Text Generation

GLM-Z1-9B-0414

發行日期：2025年4月18日

GLM-Z1-9B-0414 是 GLM 系列中的一個小型模型，只有 90 億個參數，保持了開放源代碼傳統，同時展示了令人驚訝的能力。儘管規模較小，GLM-Z1-9B-0414 在數學推理和一般任務中仍展現出優秀的性能。其整體性能已經在同尺寸的開放源代碼模型中處於領先水平。研究團隊使用與較大模型相同的技術系列來訓練這個 9B 模型。尤其在資源受限的情況下，這款模型在效率和效果之間達到了一個優秀的平衡，為尋求輕量化部署的用戶提供了一個強大的選擇。該模型具備深度思考能力，並且能夠通過 YaRN 技術處理長篇文段，特別適合需要有限計算資源的數學推理能力應用。...

總上下文：

131K

最大輸出：

131K

輸入：

0.086

/ M Tokens

輸出：

0.086

/ M Tokens

Z.ai

Text Generation

GLM-4-9B-0414

發行日期：2025年4月18日

GLM-4-9B-0414 是 GLM 系列中的小型模型，擁有 90 億參數。此模型繼承了 GLM-4-32B 系列的技術特徵，但提供了更輕量級的部署選項。儘管規模較小，GLM-4-9B-0414 在程式碼生成、網頁設計、SVG 圖形生成和基於搜索的寫作任務中仍展示出優異的能力。該模型還支持函數調用功能，允許它調用外部工具以擴展其能力範圍。模型在資源受限的場景中展現效率與效能之間的良好平衡，為需要在有限計算資源下部署 AI 模型的用戶提供了一個強大的選擇。與同系列的其他模型一樣，GLM-4-9B-0414 也在各種基準測試中展現出有競爭力的性能...

總上下文：

33K

最大輸出：

33K

輸入：

0.086

/ M Tokens

輸出：

0.086

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-32B-Instruct

發行日期：2025年3月24日

Qwen2.5-VL-32B-Instruct 是由 Qwen 團隊發佈的多模態大型語言模型，屬於 Qwen2.5-VL 系列。這個模型不僅能夠識別常見的物件，還能高度分析文本、圖表、圖標、圖形和圖片中的佈局。它作為一個視覺代理，能夠推理並動態指導工具，能夠使用電腦和手機。此外，模型能準確地定位圖片中的物體，並為諸如發票和表格等數據生成結構化輸出。與其前身 Qwen2-VL 相比，這個版本通過增強學習提高了數學和問題解決能力，並調整了回應風格以更好地符合人類偏好。...

總上下文：

131K

最大輸出：

131K

輸入：

0.27

/ M Tokens

輸出：

0.27

/ M Tokens

Qwen

Text Generation

QwQ-32B

發行日期：2025年3月6日

QwQ 是 Qwen 系列的推理模型。與傳統的指令調優模型相比，能思考和推理的 QwQ 能在下游任務中實現顯著提升的性能，尤其是在處理困難問題時。QwQ-32B 是中型推理模型，能夠在與尖端推理模型，例如 DeepSeek-R1、o1-mini 的競爭中展示出色的性能。該模型融合了 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏差等技術，擁有 64 層和 40 個 Q 注意力頭（在 GQA 架構中，有 8 個用於 KV）...

總上下文：

131K

最大輸出：

131K

輸入：

0.15

/ M Tokens

輸出：

0.58

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-72B-Instruct

發行日期：2025年1月28日

Qwen2.5-VL 是 Qwen2.5 系列中的一個視覺-語言模型，在多個方面顯示出顯著的增強：它具有強大的視覺理解能力，能夠在分析文本、圖表和圖像佈局時識別常見物體；它可以作為一個視覺代理，具備推理能力並能動態引導工具；它能夠理解長達 1 小時以上的影片並捕捉關鍵事件；它能通過生成邊界框或點來精確定位圖像中的物體；它支持結構化的掃描數據輸出如發票和表單。該模型在包括圖像、影片和代理任務的各種基準上展示了卓越的表現。...

總上下文：

131K

最大輸出：

輸入：

0.59

/ M Tokens

輸出：

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-7B-Instruct

發行日期：2025年1月28日

Qwen2.5-VL 是 Qwen 系列的新成員，配備強大的視覺理解能力。它可以分析圖像中的文字、圖表和佈局，理解長視頻並捕捉事件。它能夠進行推理、操控工具、支持多格式對象定位，並生成結構化輸出。該模型已針對視頻理解中的動態分辨率和幀率訓練進行優化，並提高了視覺編碼器的效率。...

總上下文：

33K

最大輸出：

輸入：

0.05

/ M Tokens

輸出：

0.05

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-32B

發行日期：2025年1月20日

DeepSeek-R1-Distill-Qwen-32B 是一個基於 Qwen2.5-32B 的蒸餾模型。此模型使用由 DeepSeek-R1 生成的 80 萬個精選樣本進行微調，並在數學、程式設計和推理任務中展現出卓越的性能。它在包括 AIME 2024、MATH-500 和 GPQA Diamond 在内的各種基準中取得了驚人的成績，在 MATH-500 中達到了 94.3% 的準確率，展示了強大的數學推理能力。...

總上下文：

131K

最大輸出：

131K

輸入：

0.18

/ M Tokens

輸出：

0.18

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1-Distill-Qwen-14B

發行日期：2025年1月20日

DeepSeek-R1-Distill-Qwen-14B 是一種基於 Qwen2.5-14B 的蒸餾模型。此模型使用 DeepSeek-R1 產生的 800k 精選樣本進行微調，展現了強大的推理能力。它在各種基準測試中取得了令人印象深刻的結果，包括在 MATH-500 上取得 93.9% 的準確率，在 AIME 2024 上取得 69.7% 的通過率，以及在 CodeForces 上獲得 1481 的評分，展現其在數學和編程任務中的強大能力。...

總上下文：

131K

最大輸出：

131K

輸入：

0.1

/ M Tokens

輸出：

0.1

/ M Tokens

Qwen

Text Generation

Qwen2.5-Coder-32B-Instruct

發行日期：2024年11月11日

Qwen2.5-Coder-32B-Instruct 是一個基於 Qwen2.5 開發的代碼專用大型語言模型。該模型在 5.5 兆 token 上進行了訓練，在代碼生成、代碼推理和代碼修復方面實現了顯著改進。目前，它是最先進的開源代碼語言模型，其編碼能力可與 GPT-4 相媲美。該模型不僅增強了編碼能力，還在數學和一般能力上保持了優勢，並支持長文本處理。...

總上下文：

33K

最大輸出：

輸入：

0.18

/ M Tokens

輸出：

0.18

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct-128K

發行日期：2024年9月18日

Qwen2.5-72B-Instruct 是阿里巴巴雲最新發布的大型語言模型系列之一。這個72B 模型在編碼和數學等方面顯示出顯著的改進。它支持最多128K token 的上下文長度。該模型還提供多語言支持，涵蓋超過29種語言，包括中文、英文等。它在遵循指令、理解結構化數據以及生成結構化輸出方面，尤其中在JSON格式，顯示出顯著的增強。...

總上下文：

131K

最大輸出：

輸入：

0.59

/ M Tokens

輸出：

0.59

/ M Tokens

DeepSeek

Text Generation

deepseek-vl2

發行日期：2024年12月13日

DeepSeek-VL2 是一種混合專家 (MoE) 視覺-語言模型，基於 DeepSeekMoE-27B 開發，採用稀疏激活的 MoE 架構，以僅 45 億活躍參數實現卓越的性能。該模型在各種任務中表現出色，包括視覺問答、光學字符識別、文件/表格/圖表理解和視覺對位。與現有的開源密集模型和基於 MoE 的模型相比，它在使用相同或更少的活躍參數的情況下，展現出具有競爭力或者最先進的性能。...

總上下文：

最大輸出：

輸入：

0.15

/ M Tokens

輸出：

0.15

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct

發行日期：2024年9月18日

Qwen2.5-72B-Instruct 是阿里雲最新發布的大型語言模型系列之一。72B 模型在編碼和數學等方面顯示了顯著的改進。此模型還提供多語言支持，涵蓋超過 29 種語言，包括中文和英文。它在遵循指令、理解結構化數據以及生成結構化輸出（特別是 JSON 格式）方面顯示了顯著增強。...

總上下文：

33K

最大輸出：

輸入：

0.59

/ M Tokens

輸出：

0.59

/ M Tokens

Qwen

Text Generation

Qwen2.5-32B-Instruct

發行日期：2024年9月19日

Qwen2.5-32B-Instruct 是阿里雲最新發布的大型語言模型系列之一。這個32B 模型在編碼和數學等方面顯示出顯著的改進。模型還提供多語言支持，涵蓋超過29種語言，包括中文、英文等。在遵循指令、理解結構化數據以及生成結構化輸出（特別是 JSON 格式）方面，它顯示出顯著的增強。...

總上下文：

33K

最大輸出：

輸入：

0.18

/ M Tokens

輸出：

0.18

/ M Tokens

Qwen

Text Generation

Qwen2.5-14B-Instruct

發行日期：2024年9月18日

Qwen2.5-14B-Instruct 是其中由阿里雲發佈的最新大型語言模型系列之一。這個14B模型在編碼和數學等領域展示了顯著的改進。該模型還提供多語言支持，涵蓋超過29種語言，包括中文和英文。在遵循指令、理解結構化數據以及生成結構化輸出（特別是在 JSON 格式中）方面，它展現了顯著的進步。...

總上下文：

33K

最大輸出：

輸入：

0.1

/ M Tokens

輸出：

0.1

/ M Tokens

Qwen

Text Generation

Qwen2.5-7B-Instruct

發行日期：2024年9月18日

Qwen2.5-7B-Instruct 是阿里雲發布的最新大型語言模型系列之一。這款 7B 模型在編程和數學等領域展示了顯著的改進。該模型還提供多語言支持，涵蓋超過 29 種語言，包括中文、英文和其他語言。模型在指令跟隨、理解結構化數據和生成結構化輸出方面，尤其是 JSON，顯示出顯著的提升。...

總上下文：

33K

最大輸出：

輸入：

0.05

/ M Tokens

輸出：

0.05

/ M Tokens

Meta Llama

Text Generation

Meta-Llama-3.1-8B-Instruct

發行日期：2025年4月23日

Meta Llama 3.1 是由 Meta 開發的一系列多語言大型語言模型，具有 8B、70B 和 405B 參數大小的預訓練和指令調整變體。這個 8B 指令調整模型針對多語言對話使用案例進行了優化，並在許多可用的開源和封閉聊天模型的常見行業基準上表現優異。該模型在超過 15 萬億個公開可用數據的 token 上進行了訓練，使用監督微調和帶有人類反饋的強化學習等技術來增強有用性和安全性。Llama 3.1 支援文本和代碼生成，知識截止於 2023 年 12 月。...

總上下文：

33K

最大輸出：

輸入：

0.06

/ M Tokens

輸出：

0.06

/ M Tokens

準備好加速您的人工智能開發了嗎？