关于DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Qwen-32B 是一个基于 Qwen2.5-32B 的蒸馏模型。该模型使用 DeepSeek-R1 生成的 80 万精选样本进行了微调,并在数学、编程和推理任务中表现卓越。它在包括 AIME 2024、MATH-500 和 GPQA Diamond 在内的各项基准测试中取得了令人印象深刻的成绩,其中在 MATH-500 上的准确率达到 94.3%,展示了其强大的数学推理能力。
探索 DeepSeek-R1-Distill-Qwen-32B 卓越的推理、数学和编程能力如何解决复杂的现实问题。
高级科学问题解决
利用 DeepSeek-R1-Distill-Qwen-32B 的卓越数学和推理能力来解决复杂的科学挑战,从理论物理到生化建模。
用例示例:
"通过推导用于纠错的新算法,协助量子计算团队显著加快了他们的研究进度。"
多语言代码分析与优化
超越基本调试。分析各种语言的大型代码库,精确定位细微的逻辑缺陷,优化算法并增强系统安全性。
用例示例:
"通过跟踪并发执行路径,在基于 Rust 的区块链应用程序中识别出一个关键的竞争条件,并提供了精确的安全修复。"
量化金融策略
对庞大的金融数据集进行深入的量化分析,识别复杂的市场模式,制定稳健的算法交易或投资策略。
用例示例:
"通过分析历史市场数据和经济指标,开发了一种高频交易算法,其表现超过传统模型 15%。"
智能系统与合规审计
自动化复杂系统的审计,从监管文件到复杂的工程设计,确保合规并识别关键漏洞。
用例示例:
"审计了大规模云基础设施配置,以确保符合 GDPR 和 SOC 2 标准,标记了一些配置错误,并建议了补救措施。"
元数据
规格
州
Deprecated
建筑
Dense Transformer
校准的
不
专家混合
不
总参数
32B
激活的参数
32B
推理
不
精度
FP8
上下文长度
131K
最大输出长度
131K
与其他模型进行比较
看看这个模型与其他模型相比表现如何。
DeepSeek
chat
DeepSeek-V4-Pro
发行日期:2026年4月24日
上下文长度:
1049K
最大输出长度:
393K
Input:
$
1.74
/ M Tokens
Output:
$
3.48
/ M Tokens
DeepSeek
chat
DeepSeek-V4-Flash
发行日期:2026年4月24日
上下文长度:
1049K
最大输出长度:
393K
Input:
$
0.14
/ M Tokens
Output:
$
0.28
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2
发行日期:2025年12月4日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.42
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2-Exp
发行日期:2025年10月10日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.41
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1-Terminus
发行日期:2025年9月29日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1
发行日期:2025年8月25日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-V3
发行日期:2024年12月26日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.25
/ M Tokens
Output:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-R1
发行日期:2025年5月28日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.5
/ M Tokens
Output:
$
2.18
/ M Tokens
DeepSeek
chat
DeepSeek-R1-Distill-Qwen-32B
发行日期:2025年1月20日
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.18
/ M Tokens
Output:
$
0.18
/ M Tokens
