
Moonshot AI
Text Generation
Kimi-K2.5
發行日期:2026年1月30日
Kimi K2.5 是一個開源的原生 Multimodal 主動 Model,通過在大約 15 萬億混合視覺和 Text token 上的不斷預訓練構建於 Kimi-K2-Base 之上。憑藉 1T 參數 MoE 架構(32B 活躍)和 256K 上下文長度,它無縫集成 Vision 和語言理解,具有先進的主動功能,支持即時和深思模式,以及對話和主動範式...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.23
/ M Tokens
輸出:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
發行日期:2025年12月8日
GLM-4.6V 在與相同參數規模的模型中,實現了視覺理解的 SOTA(State-of-the-Art)準確性。首次將功能調用能力本地整合到視覺模型架構中,彌合了「視覺感知」與「可執行行動」之間的鴻溝。這為現實商務場景中的多模態代理提供了統一的技術基礎。此外,視覺上下文窗口已擴展至 128k,支持長視頻流處理和高解析度多圖像分析。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.3
/ M Tokens
輸出:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
發行日期:2025年10月21日
Qwen3-VL 是 Qwen3 系列中的視覺-語言模型,在各種視覺-語言(VL)基準測試中取得了最先進(SOTA)的表現。該模型支持高達百萬像素的高解析度圖像輸入,並具備強大的一般視覺理解能力、多語言 OCR、細微的視覺定位和視覺對話能力。作為 Qwen3 系列的一部分,它繼承了強大的語言基礎,使其能夠理解和執行複雜的指令。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
發行日期:2025年10月21日
Qwen3-VL-Thinking 是 Qwen3-VL 系列中特別優化於複雜視覺推理任務的版本。它融合了一種“思考模式”,使其在提供最終答案之前能夠生成詳細的中間推理步驟(思維鏈)。此設計顯著提高了模型在視覺問答(VQA)和其他視覺-語言任務中需要多步邏輯、規劃和深入分析之性能。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
發行日期:2025年10月15日
Qwen3-VL-8B-Instruct 是 Qwen3 系列的視覺-語言模型,展示了在一般視覺理解、以視覺為中心的對話和圖像中的多語言文本識別方面的強大能力。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.18
/ M Tokens
輸出:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Thinking
發行日期:2025年10月15日
Qwen3-VL-8B-Thinking 是 Qwen3 系列中一款視覺-語言模型,專為需要複雜推理的場景而優化。在這個思考模式中,模型在提供最終答案之前會進行逐步的思考和推理。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.18
/ M Tokens
輸出:
$
2.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
發行日期:2025年10月4日
Qwen3-VL-235B-A22B-Instruct 是基於 235B 參數的專家混合 (MoE) 視覺-語言模型,具有 22B 啟動參數。這是一個經過指令調整的 Qwen3-VL-235B-A22B 版本,適用於聊天應用程式。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.3
/ M Tokens
輸出:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
發行日期:2025年10月4日
Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列模型的一種,這是一個增強推理能力的 Thinking 版本,在許多多模態推理基準中達到了最先進的 (SOTA) 成果,尤其在 STEM、數學、因果分析和邏輯、證據為基礎的答案中表現卓越。它具有一種專家混合 (MoE) 架構,總參數量為 235B,活躍參數量為 22B。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.45
/ M Tokens
輸出:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
發行日期:2025年10月5日
Qwen3-VL系列提供卓越的文本理解與生成、更深入的視覺感知與推理、擴展的上下文長度、增強的空間與視頻動態理解,以及更強的代理互動能力。可提供緻密型和MoE架構,從邊緣計算擴展到雲端,並有指導型和加強推理的Thinking版本。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.29
/ M Tokens
輸出:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
發行日期:2025年10月11日
Qwen3-VL系列提供卓越的文本理解與生成、更深入的視覺感知與推理、擴展的上下文長度、增強的空間與視頻動態理解,以及更強的代理互動能力。可提供緻密型和MoE架構,從邊緣計算擴展到雲端,並有指導型和加強推理的Thinking版本。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.29
/ M Tokens
輸出:
$
1.0
/ M Tokens

Z.ai
Text Generation
GLM-4.5V
發行日期:2025年8月13日
作為GLM-V模型家族的一部分,GLM-4.5V基於智普AI的基礎模型GLM-4.5-Air,在圖像、視頻和文檔理解以及GUI代理操作等任務上達到最先進的性能。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.14
/ M Tokens
輸出:
$
0.86
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Captioner
發行日期:2025年10月4日
Qwen3-Omni-30B-A3B-Captioner 是來自阿里巴巴 Qwen 團隊的視覺語言模型 (VLM),屬於 Qwen3 系列的一部分。它專門為生成高品質、詳細且準確的圖像說明而設計。基於 30B 總參數專家混合 (MoE) 架構,該模型可以深入理解圖像內容並將其轉化為豐富自然的語言文本。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.1
/ M Tokens
輸出:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Instruct
發行日期:2025年10月4日
Qwen3-Omni-30B-A3B-Instruct 是來自阿里巴巴 Qwen 團隊最新 Qwen3 系列的成員。它是由 300 億個總參數和 30 億個有效參數組成的專家混合(MoE)模型,能夠在保持強大性能的同時有效降低推理成本。該模型在高品質、多來源、多語言數據上訓練,並展示了在多語種對話、程式碼和數學等基本能力中的卓越表現。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.1
/ M Tokens
輸出:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Thinking
發行日期:2025年10月4日
Qwen3-Omni-30B-A3B-思考是 Qwen3-Omni 全模態模型的核心“思維者”組件。它專門設計用於處理多模態輸入,包括文本、音頻、圖片和視頻,並執行複雜的連珠推理。作為系統的推理大腦,這個模型將所有輸入統一為一個共同的表徵空間進行理解和分析,但其輸出僅為文本。這種設計使其在解決需要深入思考和跨模式理解的複雜問題(如圖像中呈現的數學問題)方面表現出色,使其成為整個 Qwen3-Omni 架構強大認知能力的關鍵。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.1
/ M Tokens
輸出:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
發行日期:2025年3月24日
Qwen2.5-VL-32B-Instruct 是由 Qwen 團隊發佈的多模態大型語言模型,屬於 Qwen2.5-VL 系列。這個模型不僅能夠識別常見的物件,還能高度分析文本、圖表、圖標、圖形和圖片中的佈局。它作為一個視覺代理,能夠推理並動態指導工具,能夠使用電腦和手機。此外,模型能準確地定位圖片中的物體,並為諸如發票和表格等數據生成結構化輸出。與其前身 Qwen2-VL 相比,這個版本通過增強學習提高了數學和問題解決能力,並調整了回應風格以更好地符合人類偏好。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.27
/ M Tokens
輸出:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
發行日期:2025年1月28日
Qwen2.5-VL 是 Qwen2.5 系列中的一個視覺-語言模型,在多個方面顯示出顯著的增強:它具有強大的視覺理解能力,能夠在分析文本、圖表和圖像佈局時識別常見物體;它可以作為一個視覺代理,具備推理能力並能動態引導工具;它能夠理解長達 1 小時以上的影片並捕捉關鍵事件;它能通過生成邊界框或點來精確定位圖像中的物體;它支持結構化的掃描數據輸出如發票和表單。該模型在包括圖像、影片和代理任務的各種基準上展示了卓越的表現。...
總上下文:
131K
最大輸出:
4K
輸入:
$
0.59
/ M Tokens
輸出:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-7B-Instruct
發行日期:2025年1月28日
Qwen2.5-VL 是 Qwen 系列的新成員,配備強大的視覺理解能力。它可以分析圖像中的文字、圖表和佈局,理解長視頻並捕捉事件。它能夠進行推理、操控工具、支持多格式對象定位,並生成結構化輸出。該模型已針對視頻理解中的動態分辨率和幀率訓練進行優化,並提高了視覺編碼器的效率。...
總上下文:
33K
最大輸出:
4K
輸入:
$
0.05
/ M Tokens
輸出:
$
0.05
/ M Tokens
DeepSeek
Text Generation
deepseek-vl2
發行日期:2024年12月13日
DeepSeek-VL2 是一種混合專家 (MoE) 視覺-語言 模型,基於 DeepSeekMoE-27B 開發,採用稀疏激活的 MoE 架構,以僅 45 億活躍參數實現卓越的性能。該 模型 在各種任務中表現出色,包括視覺問答、光學字符識別、文件/表格/圖表理解和視覺對位。與現有的開源密集模型和基於 MoE 的 模型 相比,它在使用相同或更少的活躍參數的情況下,展現出具有競爭力或者最先進的性能。...
總上下文:
4K
最大輸出:
4K
輸入:
$
0.15
/ M Tokens
輸出:
$
0.15
/ M Tokens

