關於DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-1.5B 是基於 Qwen2.5-Math-1.5B 的精煉模型。該模型使用由 DeepSeek-R1 生成的 80 萬個精選樣本進行微調,並在各種基準測試中表現出不錯的性能。作為一個輕量級模型,它在 MATH-500 上達到 83.9% 的準確率,在 AIME 2024 上達到 28.9% 的通過率,並在 CodeForces 上獲得 954 分,表現出超越其參數規模的推理能力。
Explore how DeepSeek-V3's advanced reasoning and coding capabilities translate into real-world applications.
Automated Code Generation & Debugging
Generate, optimize, and debug complex code snippets across various programming languages. The model's strong reasoning helps identify logical errors and suggest efficient solutions.
Use Case Example:
"A software engineer used DeepSeek-V3 to refactor a legacy Python module, resulting in a 40% reduction in code complexity and a 25% improvement in execution speed."
Scientific & Mathematical Research
Assist researchers by solving complex mathematical problems, formulating hypotheses, and analyzing data. Its ability to reason through abstract concepts makes it a powerful tool for scientific discovery.
Use Case Example:
"A physicist modeled a complex quantum mechanics problem, and the model provided a step-by-step derivation that led to a novel insight, which was later verified experimentally."
Intelligent Agent & Tool Integration
Build sophisticated AI agents that can understand user requests, select the appropriate tools (e.g., APIs, databases), and execute multi-step tasks autonomously.
Use Case Example:
"An automated travel assistant powered by DeepSeek-V3 booked a complete itinerary by interacting with flight, hotel, and car rental APIs based on a single natural language request from the user."
Advanced Conversational AI
Create highly engaging and context-aware chatbots, virtual assistants, or role-playing characters for gaming and entertainment. The model excels at maintaining coherent and natural-sounding dialogue.
Use Case Example:
"A gaming company implemented an NPC (Non-Player Character) using the model, which provided dynamic, unscripted interactions that significantly enhanced player immersion."
元數據
規格
狀態
Deprecated
架構
經過校準的
否
專家並行
否
總參數
2B
啟用的參數
推理
否
精度
FP8
上下文長度
33K
最大輸出長度
與其他模型比較
看看這個模型與其他模型的對比如何。
DeepSeek
chat
DeepSeek-V4-Pro
發行日期:2026年4月24日
總上下文:
1049K
最大輸出:
393K
輸入:
$
1.74
/ M Tokens
輸出:
$
3.48
/ M Tokens
DeepSeek
chat
DeepSeek-V4-Flash
發行日期:2026年4月24日
總上下文:
1049K
最大輸出:
393K
輸入:
$
0.14
/ M Tokens
輸出:
$
0.28
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2
發行日期:2025年12月4日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
0.42
/ M Tokens
DeepSeek
chat
DeepSeek-V3.2-Exp
發行日期:2025年10月10日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
0.41
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1-Terminus
發行日期:2025年9月29日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-V3.1
發行日期:2025年8月25日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.27
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-V3
發行日期:2024年12月26日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.25
/ M Tokens
輸出:
$
1.0
/ M Tokens
DeepSeek
chat
DeepSeek-R1
發行日期:2025年5月28日
總上下文:
164K
最大輸出:
164K
輸入:
$
0.5
/ M Tokens
輸出:
$
2.18
/ M Tokens
DeepSeek
chat
DeepSeek-R1-Distill-Qwen-32B
發行日期:2025年1月20日
總上下文:
131K
最大輸出:
131K
輸入:
$
0.18
/ M Tokens
輸出:
$
0.18
/ M Tokens
