關於DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Qwen-32B 是一個基於 Qwen2.5-32B 的蒸餾模型。此模型使用由 DeepSeek-R1 生成的 80 萬個精選樣本進行微調,並在數學、程式設計和推理任務中展現出卓越的性能。它在包括 AIME 2024、MATH-500 和 GPQA Diamond 在内的各種基準中取得了驚人的成績,在 MATH-500 中達到了 94.3% 的準確率,展示了強大的數學推理能力。
探索DeepSeek-R1-Distill-Qwen-32B卓越的推理、數學及程式設計能力如何解決複雜的現實世界問題。
高級科學問題解決
運用DeepSeek-R1-Distill-Qwen-32B優越的數學和推理能力從理論物理到生化模型解決複雜的科學挑戰。
使用案例範例:
"協助量子計算團隊推導出新穎的錯誤更正算法,大幅加快研究進度。"
多語言代碼分析與優化
不僅僅是基本的除錯。分析各種語言的大型代碼庫以找出細微的邏輯缺陷、優化算法並增強系統安全。
使用案例範例:
"通過追蹤並發執行路徑,識別出Rust的區塊鏈應用中的一個關鍵競態條件,提供了精確、安全的修復方案。"
量化金融策略
對龐大的金融數據集進行深入的量化分析,識別複雜的市場模式,並制定穩健的算法交易或投資策略。
使用案例範例:
"通過分析歷史市場數據和經濟指標,開發出高頻交易算法,使其表現比傳統模型高出15%。"
智能系統與合規稽核
自動稽核從法規文件到複雜工程設計的複雜系統,確保合規性並識別關鍵漏洞。
使用案例範例:
"對大規模雲基礎設施配置進行GDPR和SOC 2合規性稽核,篩檢出多個錯誤配置並建議補救措施。"
元數據
規格
狀態
Deprecated
架構
Dense Transformer
經過校準的
否
專家並行
否
總參數
32B
啟用的參數
32B
推理
否
精度
FP8
上下文長度
131K
最大輸出長度
131K
與其他模型比較
看看這個模型與其他模型的對比如何。
DeepSeek
chat
DeepSeek-V4-Pro
發行日期:2026年4月24日
總上下文:
1049K
最大輸出:
393K
輸入:
$
1.6
/ M Tokens
輸出:
$
3.48
/ M Tokens
DeepSeek
chat
DeepSeek-V4-Flash
發行日期:2026年4月24日
總上下文:
1049K
最大輸出:
393K
輸入:
$
0.13
/ M Tokens
輸出:
$
0.28
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2
發行日期:2025年12月4日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
0.42
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2-Exp
發行日期:2025年10月10日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
0.41
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1-Terminus
發行日期:2025年9月29日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1
發行日期:2025年8月25日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-V3
發行日期:2024年12月26日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.25
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-R1
發行日期:2025年5月28日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.5
/ M Tokens
輸出:
$
2.18
/ M Tokens
DeepSeek
chat
DeepSeek-R1-Distill-Qwen-32B
發行日期:2025年1月20日
總上下文:
131K
最大輸出:
131K
輸入:
$
0.18
/ M Tokens
輸出:
$
0.18
/ M Tokens
