🎉 Hy3-preview可在 SiliconFlow 上使用。現在就試試看。

模型

產品

定價

文檔

部落格

關於

聯繫

最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

最先進的

人工智能模型庫

一個 API 可以運行 200 多個尖端 AI 模型，並在幾秒鐘內部署

All

Featured

LLM

Vision

Image

Video

Audio

供應商

Moonshot AI

Text Generation

Kimi-K2.6

發行日期：2026年4月21日

Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...

總上下文：

262K

最大輸出：

262K

輸入：

0.95

/ M Tokens

輸入：

text

/ M Tokens

輸出：

4.0

/ M Tokens

Z.ai

Text Generation

GLM-5V-Turbo

發行日期：2026年3月30日

GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....

總上下文：

205K

最大輸出：

131K

輸入：

1.2

/ M Tokens

輸入：

text

/ M Tokens

輸出：

4.0

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.5

發行日期：2026年1月30日

Kimi K2.5 是一個開源的原生 Multimodal 主動 Model，通過在大約 15 萬億混合視覺和 Text token 上的不斷預訓練構建於 Kimi-K2-Base 之上。憑藉 1T 參數 MoE 架構（32B 活躍）和 256K 上下文長度，它無縫集成 Vision 和語言理解，具有先進的主動功能，支持即時和深思模式，以及對話和主動範式...

總上下文：

262K

最大輸出：

262K

輸入：

0.23

/ M Tokens

輸入：

text

/ M Tokens

輸出：

3.0

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

發行日期：2025年12月8日

GLM-4.6V 在與相同參數規模的模型中，實現了視覺理解的 SOTA（State-of-the-Art）準確性。首次將功能調用能力本地整合到視覺模型架構中，彌合了「視覺感知」與「可執行行動」之間的鴻溝。這為現實商務場景中的多模態代理提供了統一的技術基礎。此外，視覺上下文窗口已擴展至 128k，支持長視頻流處理和高解析度多圖像分析。...

總上下文：

131K

最大輸出：

131K

輸入：

0.3

/ M Tokens

輸入：

text

/ M Tokens

輸出：

0.9

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

發行日期：2025年10月21日

Qwen3-VL 是 Qwen3 系列中的視覺-語言模型，在各種視覺-語言（VL）基準測試中取得了最先進（SOTA）的表現。該模型支持高達百萬像素的高解析度圖像輸入，並具備強大的一般視覺理解能力、多語言 OCR、細微的視覺定位和視覺對話能力。作為 Qwen3 系列的一部分，它繼承了強大的語言基礎，使其能夠理解和執行複雜的指令。...

總上下文：

262K

最大輸出：

262K

輸入：

0.2

/ M Tokens

輸入：

text

/ M Tokens

輸出：

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

發行日期：2025年10月21日

Qwen3-VL-Thinking 是 Qwen3-VL 系列中特別優化於複雜視覺推理任務的版本。它融合了一種“思考模式”，使其在提供最終答案之前能夠生成詳細的中間推理步驟（思維鏈）。此設計顯著提高了模型在視覺問答（VQA）和其他視覺-語言任務中需要多步邏輯、規劃和深入分析之性能。...

總上下文：

262K

最大輸出：

262K

輸入：

0.2

/ M Tokens

輸入：

text

/ M Tokens

輸出：

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

發行日期：2025年10月15日

Qwen3-VL-8B-Instruct 是 Qwen3 系列的視覺-語言模型，展示了在一般視覺理解、以視覺為中心的對話和圖像中的多語言文本識別方面的強大能力。...

總上下文：

262K

最大輸出：

262K

輸入：

0.18

/ M Tokens

輸入：

text

/ M Tokens

輸出：

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Instruct

發行日期：2025年10月4日

Qwen3-VL-235B-A22B-Instruct 是基於 235B 參數的專家混合 (MoE) 視覺-語言模型，具有 22B 啟動參數。這是一個經過指令調整的 Qwen3-VL-235B-A22B 版本，適用於聊天應用程式。...

總上下文：

262K

最大輸出：

262K

輸入：

0.3

/ M Tokens

輸入：

text

/ M Tokens

輸出：

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Thinking

發行日期：2025年10月4日

Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列模型的一種，這是一個增強推理能力的 Thinking 版本，在許多多模態推理基準中達到了最先進的 (SOTA) 成果，尤其在 STEM、數學、因果分析和邏輯、證據為基礎的答案中表現卓越。它具有一種專家混合 (MoE) 架構，總參數量為 235B，活躍參數量為 22B。...

總上下文：

262K

最大輸出：

262K

輸入：

0.45

/ M Tokens

輸入：

text

/ M Tokens

輸出：

3.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

發行日期：2025年10月5日

Qwen3-VL系列提供卓越的文本理解與生成、更深入的視覺感知與推理、擴展的上下文長度、增強的空間與視頻動態理解，以及更強的代理互動能力。可提供緻密型和MoE架構，從邊緣計算擴展到雲端，並有指導型和加強推理的Thinking版本。...

總上下文：

262K

最大輸出：

262K

輸入：

0.29

/ M Tokens

輸入：

text

/ M Tokens

輸出：

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

發行日期：2025年10月11日

總上下文：

262K

最大輸出：

262K

輸入：

0.29

/ M Tokens

輸入：

text

/ M Tokens

輸出：

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-32B-Instruct

發行日期：2025年3月24日

Qwen2.5-VL-32B-Instruct 是由 Qwen 團隊發佈的多模態大型語言模型，屬於 Qwen2.5-VL 系列。這個模型不僅能夠識別常見的物件，還能高度分析文本、圖表、圖標、圖形和圖片中的佈局。它作為一個視覺代理，能夠推理並動態指導工具，能夠使用電腦和手機。此外，模型能準確地定位圖片中的物體，並為諸如發票和表格等數據生成結構化輸出。與其前身 Qwen2-VL 相比，這個版本通過增強學習提高了數學和問題解決能力，並調整了回應風格以更好地符合人類偏好。...

總上下文：

131K

最大輸出：

131K

輸入：

0.27

/ M Tokens

輸入：

text

/ M Tokens

輸出：

0.27

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-72B-Instruct

發行日期：2025年1月28日

Qwen2.5-VL 是 Qwen2.5 系列中的一個視覺-語言模型，在多個方面顯示出顯著的增強：它具有強大的視覺理解能力，能夠在分析文本、圖表和圖像佈局時識別常見物體；它可以作為一個視覺代理，具備推理能力並能動態引導工具；它能夠理解長達 1 小時以上的影片並捕捉關鍵事件；它能通過生成邊界框或點來精確定位圖像中的物體；它支持結構化的掃描數據輸出如發票和表單。該模型在包括圖像、影片和代理任務的各種基準上展示了卓越的表現。...

總上下文：

131K

最大輸出：

輸入：

0.59

/ M Tokens

輸入：

text

/ M Tokens

輸出：

0.59

/ M Tokens