关于DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Qwen-32B 是一个基于 Qwen2.5-32B 的蒸馏模型。该模型使用 DeepSeek-R1 生成的 80 万精选样本进行了微调,并在数学、编程和推理任务中表现卓越。它在包括 AIME 2024、MATH-500 和 GPQA Diamond 在内的各项基准测试中取得了令人印象深刻的成绩,其中在 MATH-500 上的准确率达到 94.3%,展示了其强大的数学推理能力。
可用的 Serverless
立即运行查询,仅按使用量付费
$
0.18
/
$
0.18
每 100 万 token(Input/Output)
元数据
规格
州
Available
建筑
校准的
不
专家混合
不
总参数
32B
激活的参数
32B
推理
不
精度
FP8
上下文长度
131K
最大输出长度
131K
支持功能
Serverless
支持
Serverless LoRA
不支持
微调
不支持
Embeddings
不支持
Rerankers
不支持
支持 Image Input
不支持
JSON Mode
支持
结构化Outputs
不支持
工具
支持
FIM 补全
支持
对话前缀补全
不支持
与其他模型进行比较
看看这个模型与其他模型相比表现如何。
DeepSeek
chat
DeepSeek-V3.2
发行日期:2025年12月4日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.42
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2-Exp
发行日期:2025年10月10日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
0.41
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1-Terminus
发行日期:2025年9月29日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1
发行日期:2025年8月25日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.27
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
chat
DeepSeek-V3
发行日期:2024年12月26日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.25
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
chat
DeepSeek-R1
发行日期:2025年5月28日
上下文长度:
164K
最大输出长度:
164K
Input:
$
0.5
/ M Tokens
Output:
$
2.18
/ M Tokens
DeepSeek
chat
DeepSeek-R1-Distill-Qwen-32B
发行日期:2025年1月20日
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.18
/ M Tokens
Output:
$
0.18
/ M Tokens
DeepSeek
chat
DeepSeek-R1-Distill-Qwen-14B
发行日期:2025年1月20日
上下文长度:
131K
最大输出长度:
131K
Input:
$
0.1
/ M Tokens
Output:
$
0.1
/ M Tokens
DeepSeek
chat
DeepSeek-R1-Distill-Qwen-7B
发行日期:2025年1月20日
上下文长度:
33K
最大输出长度:
16K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens
