DeepSeek
Text Generation
DeepSeek-V3.2
發行日期:2025年12月4日
DeepSeek-V3.2 是一個模型,能夠將高計算效率與卓越的推理和代理性能相結合。它的方法建立在三個關鍵技術突破之上:DeepSeek Sparse Attention (DSA),這是一種有效的注意力機制,顯著降低了計算複雜性,同時保持模型性能,特別針對長上下文場景進行了優化;一個可擴展的強化學習框架,使其性能可與 GPT-5 比肩,推理能力則可與其高計算版本的 Gemini-3.0-Pro 並駕齊驅;以及一個大規模代理任務合成管道,用於在使用工具的場景中整合推理,提高在複雜交互環境中的合規性和泛化能力。該模型在 2025 年國際數學奧林匹克(IMO)和國際信息學奧林匹克(IOI)中獲得金牌成績。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
0.42
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2-Exp
發行日期:2025年10月10日
DeepSeek-V3.2-Exp 是一個實驗版本的 DeepSeek 模型,基於 V3.1-Terminus 構建。它推出 DeepSeek Sparse Attention (DSA),能夠在長上下文上進行更快、更有效的訓練和推理。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
0.41
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1-Terminus
發行日期:2025年9月29日
DeepSeek-V3.1-Terminus 是一個更新版本,基於 V3.1 的優勢,同時回應了用戶的關鍵反饋。它改善了語言的一致性,減少了中英文字混雜的情況以及偶爾出現的異常字符。此外,在代碼代理和搜尋代理的性能上也進行了升級。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1
發行日期:2025年8月25日
DeepSeek-V3.1 是一個混合模型,支持思考模式和非思考模式。通過後期訓練優化,模型在工具使用和代理任務中的性能顯著提高。DeepSeek-V3.1-Think 的答案質量達到與 DeepSeek-R1-0528 相當的水平,同時回應速度更快。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3
發行日期:2024年12月26日
DeepSeek-V3-0324 在幾個關鍵方面展示了相對其前代產品 DeepSeek-V3 的顯著改進,包括推理性能的重大提升、更強的前端開發能力以及更智能的工具使用能力。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.25
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1
發行日期:2025年5月28日
DeepSeek-R1-0528 是一個升級的模型,顯示出在處理複雜推理任務方面的顯著改進,也提供了降低的幻覺率、增強的函數調用支持以及更好的振動編碼體驗。其性能可與 O3 和 Gemini 2.5 Pro 相媲美。...
總上下文:
164K
最大輸出:
164K
輸入:
$
0.5
/ M Tokens
輸出:
$
2.18
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-32B
發行日期:2025年1月20日
DeepSeek-R1-Distill-Qwen-32B 是一個基於 Qwen2.5-32B 的蒸餾模型。此模型使用由 DeepSeek-R1 生成的 80 萬個精選樣本進行微調,並在數學、程式設計和推理任務中展現出卓越的性能。它在包括 AIME 2024、MATH-500 和 GPQA Diamond 在内的各種基準中取得了驚人的成績,在 MATH-500 中達到了 94.3% 的準確率,展示了強大的數學推理能力。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.18
/ M Tokens
輸出:
$
0.18
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-14B
發行日期:2025年1月20日
DeepSeek-R1-Distill-Qwen-14B 是一種基於 Qwen2.5-14B 的蒸餾模型。此模型使用 DeepSeek-R1 產生的 800k 精選樣本進行微調,展現了強大的推理能力。它在各種基準測試中取得了令人印象深刻的結果,包括在 MATH-500 上取得 93.9% 的準確率,在 AIME 2024 上取得 69.7% 的通過率,以及在 CodeForces 上獲得 1481 的評分,展現其在數學和編程任務中的強大能力。...
總上下文:
131K
最大輸出:
131K
輸入:
$
0.1
/ M Tokens
輸出:
$
0.1
/ M Tokens
DeepSeek
Text Generation
deepseek-vl2
發行日期:2024年12月13日
DeepSeek-VL2 是一種混合專家 (MoE) 視覺-語言 模型,基於 DeepSeekMoE-27B 開發,採用稀疏激活的 MoE 架構,以僅 45 億活躍參數實現卓越的性能。該 模型 在各種任務中表現出色,包括視覺問答、光學字符識別、文件/表格/圖表理解和視覺對位。與現有的開源密集模型和基於 MoE 的 模型 相比,它在使用相同或更少的活躍參數的情況下,展現出具有競爭力或者最先進的性能。...
總上下文:
4K
最大輸出:
4K
輸入:
$
0.15
/ M Tokens
輸出:
$
0.15
/ M Tokens

