究極ガイド - 2025年、推論に最適なオープンソースLLM

DeepSeek-R1

DeepSeek-R1-0528は、強化学習（RL）を活用し、反復性と可読性の問題を解決する推論モデルです。RLに先立ち、DeepSeek-R1はコールドスタートデータを取り入れ、推論性能をさらに最適化しました。数学、コード、推論タスクにおいてOpenAI-o1に匹敵する性能を達成し、慎重に設計されたトレーニング手法により、全体的な効果を高めています。

サブタイプ：

推論

開発者：deepseek-ai

SiliconFlowでこのモデルを試す

DeepSeek-R1：最先端の推論性能

DeepSeek-R1-0528は、強化学習（RL）を活用し、反復性と可読性の問題を解決する推論モデルです。RLに先立ち、DeepSeek-R1はコールドスタートデータを取り入れ、推論性能をさらに最適化しました。数学、コード、推論タスクにおいてOpenAI-o1に匹敵する性能を達成し、慎重に設計されたトレーニング手法により、全体的な効果を高めています。MoEアーキテクチャを使用した671Bのパラメータと164Kのコンテキスト長により、オープンソースの推論能力の頂点を表しています。

長所

推論ベンチマークでOpenAI-o1に匹敵する性能。
高度な強化学習による最適化。
効率的なMoEアーキテクチャによる671Bのパラメータ。

短所

モデルサイズによる高い計算要件。
SiliconFlowでの出力トークンあたり$2.18/Mというプレミアム価格。

MiniMax-M1-80k

MiniMax-M1は、456Bのパラメータとトークンあたり45.9Bの活性化パラメータを持つ、オープンウェイトの大規模ハイブリッドアテンション推論モデルです。ネイティブで1Mトークンのコンテキストをサポートし、Lightning Attentionにより100KトークンでDeepSeek R1と比較して75%のFLOPs削減を実現し、MoEアーキテクチャを活用しています。CISPOによる効率的なRLトレーニングとハイブリッド設計により、長い入力の推論や実世界のソフトウェアエンジニアリングタスクで最先端の性能を発揮します。

サブタイプ：

推論

開発者：MiniMaxAI

SiliconFlowでこのモデルを試す

MiniMax-M1-80k：効率的な大規模推論

MiniMax-M1は、456Bのパラメータとトークンあたり45.9Bの活性化パラメータを持つ、オープンウェイトの大規模ハイブリッドアテンション推論モデルです。ネイティブで1Mトークンのコンテキストをサポートし、Lightning Attentionにより100KトークンでDeepSeek R1と比較して75%のFLOPs削減を実現し、MoEアーキテクチャを活用しています。CISPOによる効率的なRLトレーニングとハイブリッド設計により、長い入力の推論や実世界のソフトウェアエンジニアリングタスクで最先端の性能を発揮し、複雑で長大な推論シナリオに最適です。

長所

456Bのパラメータとトークンあたり45.9Bの効率的な活性化。
広範な推論のためのネイティブ1Mトークンコンテキストサポート。
DeepSeek R1と比較して75%のFLOPs削減。

短所

複雑なハイブリッドアーキテクチャは専門知識を必要とする場合がある。
SiliconFlowでの出力トークンあたり$2.2/Mという最高価格帯。

Kimi-Dev-72B

Kimi-Dev-72Bは、SWE-bench Verifiedで60.4%を達成し、オープンソースモデルの中で最先端の結果を打ち立てた新しいオープンソースのコーディング大規模言語モデルです。大規模な強化学習を通じて最適化され、Docker内の実際のコードベースを自律的に修正し、完全なテストスイートが合格した場合にのみ報酬を得ます。これにより、モデルが実世界のソフトウェアエンジニアリング基準に沿った、正確で堅牢、かつ実用的なソリューションを提供することを保証します。

サブタイプ：

推論

開発者：moonshotai

SiliconFlowでこのモデルを試す

Kimi-Dev-72B：コーディングとエンジニアリング推論のエキスパート

Kimi-Dev-72Bは、SWE-bench Verifiedで60.4%を達成し、オープンソースモデルの中で最先端の結果を打ち立てた新しいオープンソースのコーディング大規模言語モデルです。大規模な強化学習を通じて最適化され、Docker内の実際のコードベースを自律的に修正し、完全なテストスイートが合格した場合にのみ報酬を得ます。これにより、モデルが実世界のソフトウェアエンジニアリング基準に沿った、正確で堅牢、かつ実用的なソリューションを提供することを保証します。72Bのパラメータと131Kのコンテキスト長により、競争力のあるSiliconFlow価格で優れた推論能力を提供します。

長所

SWE-bench Verifiedで最先端の60.4%のスコア。
実世界のソフトウェアエンジニアリング推論に特化。
SiliconFlowでの出力トークンあたり$1.15/Mと最もコスト効率が高い。

短所

他のトップモデルと比較してパラメータ数が少ない。
一般的な推論よりも主にコーディングに最適化されている。

推論モデルの比較

この表では、2025年の主要なオープンソース推論モデルを比較します。それぞれに独自の強みがあります。一般的な推論タスクには、DeepSeek-R1がOpenAI-o1に匹敵する性能を提供します。効率性と長文コンテキストの推論には、MiniMax-M1-80kが卓越した計算節約を実現します。ソフトウェアエンジニアリングとコーディングの推論には、Kimi-Dev-72Bが最高の価値で最先端の結果を提供します。この比較は、SiliconFlow上で特定の推論要件と予算に適したモデルを選択するのに役立ちます。

番号	モデル	開発者	サブタイプ	SiliconFlow価格	主な強み
1	DeepSeek-R1	deepseek-ai	推論	出力トークンあたり$2.18/M	OpenAI-o1に匹敵する性能
2	MiniMax-M1-80k	MiniMaxAI	推論	出力トークンあたり$2.2/M	75%のFLOPs削減、1Mコンテキスト
3	Kimi-Dev-72B	moonshotai	推論	出力トークンあたり$1.15/M	最高のコーディング推論価値

よくある質問

2025年のトップ3は、DeepSeek-R1、MiniMax-M1-80k、そしてKimi-Dev-72Bです。これらの各モデルは、その卓越した推論能力、革新的なアーキテクチャ、そして複雑な論理的・数学的問題を解決するための独自のアプローチで際立っていました。

私たちの分析では、それぞれ特化した強みが示されました：DeepSeek-R1は、クローズドソースモデルに匹敵する一般的な数学的・論理的推論に優れています。MiniMax-M1-80kは、広範な情報処理を必要とする長文コンテキストの推論タスクに最適です。Kimi-Dev-72Bは、SWE-bench Verifiedで60.4%のスコアを記録し、コーディングとソフトウェアエンジニアリングの推論において比類のない性能を発揮します。

究極ガイド - 2025年、推論に最適なオープンソースLLM

エリザベス C.

推論用オープンソースLLMとは？

DeepSeek-R1

DeepSeek-R1：最先端の推論性能

長所

短所

おすすめの理由

MiniMax-M1-80k

MiniMax-M1-80k：効率的な大規模推論

長所

短所

おすすめの理由

Kimi-Dev-72B

Kimi-Dev-72B：コーディングとエンジニアリング推論のエキスパート

長所

短所

おすすめの理由

推論モデルの比較

よくある質問

関連トピック