模型

產品

定價

文檔

部落格

關於

聯繫

🎉 LongCat-2.0可在 SiliconFlow 上使用。現在就試試看。

🎉 LongCat-2.0可在 SiliconFlow 上使用。現在就試試看。

模型

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Llama-8B

API 參考

關於DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distill-Llama-8B是一個基於Llama-3.1-8B的蒸餾模型。該模型使用DeepSeek-R1生成的樣本進行微調，展示出強大的推理能力。它在各種基準測試中取得了顯著的成績，包括在MATH-500上達到了89.1%的準確率、在AIME 2024上達到了50.4%的通過率，以及在CodeForces上取得了1205的評分，顯示出一個8B規模模型的令人印象深刻的數學和編程能力。

用例

元數據

創建於

2025年1月20日

許可證

MIT

供應商

DeepSeek

HuggingFace

DeepSeek-R1-Distill-Llama-8B

規格

狀態

Deprecated

架構

經過校準的

否

專家並行

否

總參數

8B

啟用的參數

推理

否

精度

FP8

上下文長度

33K

最大輸出長度

與其他模型比較

看看這個模型與其他模型的對比如何。

DeepSeek

chat

DeepSeek-V3.2

發行日期：2025年12月4日

總上下文：

164K

最大輸出：

164K

輸入：

$

0.27

/ M Tokens

輸出：

$

0.42

/ M Tokens

DeepSeek

chat

DeepSeek-V3.2-Exp

發行日期：2025年10月10日

總上下文：

164K

最大輸出：

164K

輸入：

$

0.27

/ M Tokens

輸出：

$

0.41

/ M Tokens

DeepSeek

chat

DeepSeek-V3.1-Terminus

發行日期：2025年9月29日

總上下文：

164K

最大輸出：

164K

輸入：

$

0.27

/ M Tokens

輸出：

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-V3.1

發行日期：2025年8月25日

總上下文：

164K

最大輸出：

164K

輸入：

$

0.27

/ M Tokens

輸出：

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-V3

發行日期：2024年12月26日

總上下文：

164K

最大輸出：

164K

輸入：

$

0.25

/ M Tokens

輸出：

$

1.0

/ M Tokens

DeepSeek

chat

DeepSeek-R1

發行日期：2025年5月28日

總上下文：

164K

最大輸出：

164K

輸入：

$

0.5

/ M Tokens

輸出：

$

2.18

/ M Tokens

DeepSeek

chat

DeepSeek-R1-Distill-Qwen-32B

發行日期：2025年1月20日

總上下文：

131K

最大輸出：

131K

輸入：

$

0.18

/ M Tokens

輸出：

$

0.18

/ M Tokens

DeepSeek

chat

DeepSeek-R1-Distill-Qwen-14B

發行日期：2025年1月20日

總上下文：

131K

最大輸出：

131K

輸入：

$

0.1

/ M Tokens

輸出：

$

0.1

/ M Tokens

DeepSeek

chat

DeepSeek-R1-Distill-Qwen-7B

發行日期：2025年1月20日

總上下文：

33K

最大輸出：

16K

輸入：

$

0.05

/ M Tokens

輸出：

$

0.05

/ M Tokens

準備好加速您的人工智能開發了嗎？

準備好加速您的人工智能開發了嗎？

準備好加速您的人工智能開發了嗎？

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·

頁面

模型

大型語言模型

產品

© 2025 SiliconFlow

·