
Z.ai
Text Generation
GLM-4.6V
發行日期:2025年12月8日
GLM-4.6V 在同参数规模的模型中实现了视觉理解的SOTA(State-of-the-Art)精度。这是第一次在视觉模型结构中原生整合了功能调用能力,弥合了“视觉感知”和“可执行行动”之间的差距。这为现实商业场景中的多模态代理提供了统一的技术基础。此外,视觉上下文窗口已扩展至128k,支持长视频流处理和高分辨率多图像分析。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.3
/ M Tokens
輸出:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
發行日期:2025年10月21日
Qwen3-VL 是 Qwen3 系列中的視覺-語言模型,在各種視覺-語言(VL)基準測試中達到了最先進的(SOTA)性能。該模型支持高達百萬像素級的高分辨率圖像輸入,並擁有強大的通用視覺理解、多語種 OCR、細粒度視覺對位和視覺對話能力。作為 Qwen3 系列的一部分,它繼承了一個強大的語言基礎,使其能夠理解和執行複雜的指令。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
發行日期:2025年10月21日
Qwen3-VL-Thinking 是 Qwen3-VL 系列的一個版本,專門優化用於複雜的視覺推理任務。它融入了“思考模式”,使得它能夠在給出最終答案之前生成詳細的中間推理步驟(連環思考)。這種設計顯著提升了模型在視覺問答(VQA)以及其他需要多步邏輯、規劃和深入分析的視覺-語言任務中的表現。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.2
/ M Tokens
輸出:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
發行日期:2025年10月15日
Qwen3-VL-8B-Instruct 是 Qwen3 系列的視覺語言模型,顯示出在一般視覺理解、視覺為中心的對話和圖像中的多語種文字識別方面的強大能力。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.18
/ M Tokens
輸出:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Thinking
發行日期:2025年10月15日
Qwen3-VL-8B-Thinking 是 Qwen3 系列中的視覺-語言模型,優化於需要複雜推理的場景。在此思考模式中,此模型在給出最終答案前會執行逐步思考和推理。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.18
/ M Tokens
輸出:
$
2.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
發行日期:2025年10月4日
Qwen3-VL-235B-A22B-Instruct 是一個擁有 235B 參數的專家組合(MoE)視覺-語言模型,具有 22B 活躍參數。它是經過指令調整的 Qwen3-VL-235B-A22B 版本,並且針對聊天應用程式進行了調整。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.3
/ M Tokens
輸出:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
發行日期:2025年10月4日
Qwen3-VL-235B-A22B-Thinking 是 Qwen3-VL 系列模型之一,這是一個增強推理的 Thinking 版本,在多模式推理基準測試中達到最先進 (SOTA) 的成果,並在 STEM、數學、因果分析以及邏輯的、基於證據的回答方面表現卓越。它具有一個專家混合 (MoE) 架構,擁有 235B 的總參數以及 22B 的活躍參數。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.45
/ M Tokens
輸出:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
發行日期:2025年10月5日
Qwen3-VL 系列提供卓越的文本理解和生成、更深層的視覺感知與推理、擴展的上下文長度、增強的空間與視頻動態理解能力,以及更強的代理互動能力。提供密集型和 MoE 架構,從邊緣到雲端可擴展,並具有指令和推理增強的思考版本。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.29
/ M Tokens
輸出:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
發行日期:2025年10月11日
Qwen3-VL 系列提供卓越的文本理解和生成、更深層的視覺感知與推理、擴展的上下文長度、增強的空間與視頻動態理解能力,以及更強的代理互動能力。提供密集型和 MoE 架構,從邊緣到雲端可擴展,並具有指令和推理增強的思考版本。...
總上下文:
262K
最大輸出:
262K
輸入:
$
0.29
/ M Tokens
輸出:
$
1.0
/ M Tokens

Z.ai
Text Generation
GLM-4.5V
發行日期:2025年8月13日
作為GLM-V系列模型的一部分,GLM-4.5V基於ZhipuAI的基礎模型GLM-4.5-Air,在圖像、視頻和文檔理解以及GUI代理操作等任務上達到了SOTA表現。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.14
/ M Tokens
輸出:
$
0.86
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Thinking
發行日期:2025年10月4日
Qwen3-Omni-30B-A3B-Thinking 是 Qwen3-Omni 全模态 模型 的核心 "Thinker" 组件。它专门用于处理多模态输入,包括文本、音频、图像和视频,并执行复杂的思维链推理。作为系统的推理大脑,此 模型 将所有输入统一到一个通用表征空间中进行理解和分析,但其输出仅为文本。此设计使其擅长解决需要深度思考和跨模态理解的复杂问题,例如以图像呈现的数学问题,从而成为整个 Qwen3-Omni 架构强大认知能力的关键。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.1
/ M Tokens
輸出:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Captioner
發行日期:2025年10月4日
Qwen3-Omni-30B-A3B-Captioner 是來自阿里巴巴 Qwen 團隊的視覺語言模型 (VLM),屬於 Qwen3 系列的一部分。它是專為生成高質量、詳細和準確的圖像標註而設計的。基於 30B 總參數專家混合 (MoE) 架構,該模型可以深入理解圖像內容並將其轉換為豐富的自然語言文本。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.1
/ M Tokens
輸出:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Instruct
發行日期:2025年10月4日
Qwen3-Omni-30B-A3B-Instruct 是阿里巴巴 Qwen 團隊最新 Qwen3 系列的一員。它是一種專家混合(MoE)模型,擁有 300 億個總參數和 30 億個活躍參數,可以有效降低推理成本,同時保持強大的性能。該模型在高質量、多來源和多語言的數據上進行了訓練,顯示出在多語種對話、代碼、數學等基本能力方面的出色表現。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.1
/ M Tokens
輸出:
$
0.4
/ M Tokens

StepFun
Text Generation
step3
發行日期:2025年8月6日
Step3 是從 StepFun 開發的一個尖端多模態推理模型。它建立在一個專家混合(MoE)架構上,總參數為 321B,活動參數為 38B。該模型被設計成端到端以在提供高級性能的同時最小化解碼成本。通過多矩陣因子化注意(MFA)和注意-FFN 分解(AFD)協同設計,Step3 在旗艦和低端加速器上均保持卓越的效率。在預訓練期間,Step3 處理了超過 20T 的文本標記和 4T 的圖像文本混合標記,涵蓋了十多種語言。該模型在開源模型的各種基準測試中,包括數學、代碼和多模態性,已達到了先進的性能。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.57
/ M Tokens
輸出:
$
1.42
/ M Tokens

Z.ai
Text Generation
GLM-4.1V-9B-Thinking
發行日期:2025年7月4日
GLM-4.1V-9B-Thinking 是一個開源的視覺語言模型 (VLM),由智譜AI和清華大學的KEG實驗室聯合發布,旨在推進通用多模態推理。在GLM-4-9B-0414基礎模型的基礎上構建,它引入了一種“思考範式”並利用課程採樣增強學習 (RLCS) 來顯著提升其在複雜任務中的能力。作為一個9B參數模型,它在類似規模的模型中達到最先進的性能,其性能可媲美甚至超越了在18項不同基準上更大的72B參數Qwen-2.5-VL-72B。該模型在多樣化的任務中表現突出,包括STEM問題解決、影片理解和長文檔理解,並且能夠處理高達4K分辨率和任意長寬比的圖像。...
總上下文:
66K
最大輸出:
66K
輸入:
$
0.035
/ M Tokens
輸出:
$
0.14
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
發行日期:2025年3月24日
Qwen2.5-VL-32B-Instruct 是由 Qwen 團隊發布的一個多模態大型語言模型,屬於 Qwen2.5-VL 系列。這個模型不僅能夠識別常見物體,還能高效地分析圖像中的文本、圖表、圖標、圖形和布局。它充當一個能夠推理和動態指導工具的視覺代理,能夠使用計算機和手機。此外,該模型還能準確地定位圖像中的物體,並為如發票和表格等數據生成結構化輸出。相比其前身 Qwen2-VL,此版本通過強化學習提升了數學和問題解決能力,其回應風格更符合人類偏好。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.27
/ M Tokens
輸出:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
發行日期:2025年1月28日
Qwen2.5-VL 是 Qwen2.5 系列中的一個視覺-語言模型,在多個方面顯示出顯著的增強:它具有強大的視覺理解能力,能夠在分析文本、圖表和圖像佈局的同時識別常見物體;它作為一個能夠推理並動態指導工具的視覺代理;它能夠理解超過1小時的視頻並捕捉關鍵事件;它能夠通過生成邊界框或點精確地定位圖像中的物體;並且它支持掃描數據(如發票和表格)的結構化輸出。此模型在各種基準測試,包括圖像、視頻和代理任務中,表現出色。...
總上下文:
131K
最大輸出:
4K
輸入:
$
0.59
/ M Tokens
輸出:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-7B-Instruct
發行日期:2025年1月28日
Qwen2.5-VL 是 Qwen 系列的新成員,具備強大的視覺理解能力。它能夠分析圖像內的文字、圖表和佈局,理解長影片,並捕捉事件。它具備推理、操控工具、支持多格式對象定位和生成結構化輸出的能力。模型已針對影片理解中的動態解析度與幀率訓練進行了優化,並提升了視覺編碼器的效率。...
總上下文:
33K
最大輸出:
4K
輸入:
$
0.05
/ M Tokens
輸出:
$
0.05
/ M Tokens
DeepSeek
Text Generation
deepseek-vl2
發行日期:2024年12月13日
DeepSeek-VL2 是一種混合專家 (MoE) 視覺語言模型,基於 DeepSeekMoE-27B 開發,採用稀疏激活的 MoE 架構,在使用僅 4.5B 活動參數的情況下實現卓越性能。該模型在各種任務中表現出色,包括視覺問答、光學字符識別、文件/表格/圖表理解和視覺定位。相比現有開源的密集模型和基於 MoE 的模型,它在使用相同或更少的活動參數下展現出具有競爭力或最先進的性能。...
總上下文:
4K
最大輸出:
4K
輸入:
$
0.15
/ M Tokens
輸出:
$
0.15
/ M Tokens

