最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

Z.ai

Text Generation

GLM-4.7

GLM-4.7はZhipuの新世代フラッグシップModelで、総パラメーターは355B、アクティベートパラメーターは32Bあり、会話、推論、エージェント機能において総合的なアップグレードを提供します。回答はより簡潔で自然になり、執筆はより没入感があり、ツールコール指示はより確実に遵守され、アーティファクトと代理コーディングのフロントエンド仕上げや、長期的タスク完了効率がさらに向上しました。...

Total Context:

205K

Max output:

205K

Input:

$

0.42

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.2

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2

DeepSeek-V3.2は、優れた推論とエージェントのパフォーマンスを高い計算効率で調和させるModelです。そのアプローチは、次の3つの主要な技術的ブレークスルーに基づいています:DeepSeek Sparse Attention(DSA)、計算複雑性を実質的に削減しながらModel性能を維持し、特に長文脈シナリオに最適化された効率的なアテンションメカニズム;GPT-5に匹敵するパフォーマンスと、Gemini-3.0-Proの高精度バリアントと並ぶ推論能力を実現するスケーラブルな強化学習フレームワーク;そして、ツール使用シナリオに推論を統合し、複雑なインタラクティブ環境での準拠性と一般化を改善する大規模エージェントタスク合成パイプラインです。Modelは2025年の国際数学オリンピック(IMO)および国際情報オリンピック(IOI)で金メダルの実績を達成しました。...

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.42

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Expは、DeepSeekモデルの実験バージョンであり、V3.1-Terminusに基づいています。これは、長いコンテキストでのより高速で効率的なトレーニングとInferenceのためにDeepSeek Sparse Attention(DSA)をデビューさせます。...

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.41

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Terminusは、V3.1の強みを基にし、主要なユーザーフィードバックに対応した更新バージョンです。言語の一貫性を向上させ、中国語と英語が混在したTextや時折発生する異常な文字を減らしています。また、Code AgentとSearch Agentの性能も強化されています。...

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3.1

DeepSeek-V3.1はハイブリッドモデルで、思考モードと非思考モードの両方をサポートしています。ポストトレーニングの最適化により、モデルのツール使用とエージェントタスクにおけるパフォーマンスが大幅に向上しました。DeepSeek-V3.1-Thinkは、DeepSeek-R1-0528と同等の回答品質を達成し、より迅速に応答します。...

Total Context:

164K

Max output:

164K

Input:

$

0.27

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V3

DeepSeek-V3-0324は、推論性能の大幅な向上、強力なフロントエンド開発スキル、よりスマートなツール使用能力など、いくつかの重要な側面で前モデルのDeepSeek-V3を大きく上回る改善を示しています。...

Total Context:

164K

Max output:

164K

Input:

$

0.25

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.0

/ M Tokens

DeepSeek

Text Generation

DeepSeek-R1

DeepSeek-R1-0528は、複雑な推論タスクの処理において大幅な改善を示すアップグレードされたModelであり、幻覚率の低減、関数呼び出しのサポート強化、およびバイブコーディングのより良い経験も提供します。これは、O3およびGemini 2.5 Proに匹敵するパフォーマンスを達成します。...

Total Context:

164K

Max output:

164K

Input:

$

0.5

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.18

/ M Tokens

OpenAI

Text Generation

gpt-oss-120b

gpt-ossシリーズは、強力な推論、エージェントタスク、および多目的な開発者ユースケース向けに設計されたOpenAIのオープンウェイトのモデルです。gpt-oss-120bは生産、汎用、高度な推論ユースケース向けで、単一の80GB GPU(例えばNVIDIA H100やAMD MI300X)に収まります。...

Total Context:

131K

Max output:

8K

Input:

$

0.05

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.45

/ M Tokens

OpenAI

Text Generation

gpt-oss-20b

gpt-ossシリーズは、OpenAIの強力な推論、エージェンティックなタスク、および多目的な開発者のユースケースのために設計されたオープンウェイトモデルです。gpt-oss-20bは低遅延、ローカルまたは専門的なユースケース用です。...

Total Context:

131K

Max output:

8K

Input:

$

0.04

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.18

/ M Tokens

Z.ai

Text Generation

GLM-4.5-Air

GLM-4.5シリーズのモデルは、インテリジェントエージェントのために設計されたファウンデーションモデルです。GLM-4.5-Airは、合計1060億のパラメーターと、120億のアクティブパラメーターを備えた、よりコンパクトな設計を採用しています。また、思考モードと非思考モードの両方を提供するハイブリッド推論モデルでもあります。...

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.86

/ M Tokens

inclusionAI

Text Generation

Ling-flash-2.0

Ling-flash-2.0 は inclusionAI の言語 Model で、合計 1,000 億パラメーターを持ち、そのうち 61 億は token ごとにアクティブ化されます(48 億は非 Embedding)。Ling 2.0 アーキテクチャシリーズの一部として、軽量でありながら強力な専門集団(MoE) Model として設計されています。40B レベルの密集 Model や他の大規模な MoE Model に匹敵する、またはそれを超える性能を提供することを目指していますが、アクティブなパラメーター数は大幅に少なくなっています。この Model は、極端なアーキテクチャのデザインとトレーニング手法を通じて高性能と効率を達成することに焦点を当てた戦略を表しています。...

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-480B-A35B

Qwen3-Coder-480B-A35B-Instruct is the most agentic code model released by Alibaba to date. It is a Mixture-of-Experts (MoE) model with 480 billion total parameters and 35 billion activated parameters, balancing efficiency and performance. The model natively supports a 256K (approximately 262,144) token context length, which can be extended up to 1 million tokens using extrapolation methods like YaRN, enabling it to handle repository-scale codebases and complex programming tasks. Qwen3-Coder is specifically designed for agentic coding workflows, where it not only generates code but also autonomously interacts with developer tools and environments to solve complex problems. It has achieved state-of-the-art results among open models on various coding and agentic benchmarks, with performance comparable to leading models like Claude Sonnet 4. Alongside the model, Alibaba has also open-sourced Qwen Code, a command-line tool designed to fully unleash its powerful agentic coding capabilities...

Total Context:

262K

Max output:

262K

Input:

$

0.25

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.0

/ M Tokens

Qwen

Text Generation

Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instructは、AlibabaのQwenチームによって開発されたQwen3シリーズのコードModelです。洗練され最適化されたModelとして、強化されたコーディング機能に焦点を当てつつ、印象的なパフォーマンスと効率を維持しています。Agentic Coding、Agentic Browser-Use、その他の基礎的なコーディングタスクのような複雑なタスクにおいて、オープンソースのModel間で顕著なパフォーマンスの優位性を示しています。このModelは、256K tokenという長いコンテキストをネイティブにサポートしており、1M tokenまで拡張可能で、リポジトリ規模の理解と処理をより良くします。さらに、Qwen CodeやCLINEのようなプラットフォームのための強力なエージェンティックコーディングのサポートを提供し、特別に設計された関数呼び出しフォーマットを備えています。...

Total Context:

262K

Max output:

262K

Input:

$

0.07

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507はQwen3-30B-A3B無考モードの更新版です。それは30.5億の総パラメータと3.3億の活性化パラメータを持つエキスパートの組合せ(MoE)モデルです。このバージョンは、指示の遵守、論理的推論、Text理解、数学、科学、コーディング、ツールの使用などの一般的な能力の顕著な改善を含む重要な強化を特徴としています。また、多言語にわたる長い知識のカバー率における大幅な向上を示し、主観的でオープンエンドなタスクにおいてユーザーの好みとの整合性が著しく向上し、より役立つ応答と高品質なText生成を可能にします。さらに、256Kまでの長いコンテキスト理解能力が強化されました。このModelは無考モードのみをサポートし、Outputに`<think></think>`ブロックを生成しません。...

Total Context:

262K

Max output:

262K

Input:

$

0.09

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.3

/ M Tokens

ByteDance

Text Generation

Seed-OSS-36B-Instruct

Seed-OSSは、ByteDance Seedチームによって開発されたオープンソースの大規模言語Modelのシリーズであり、強力な長文コンテキスト処理、推論、エージェント機能、および汎用能力のために設計されています。このシリーズ内では、Seed-OSS-36B-Instructは、36億のパラメータを持つ命令調整済みModelであり、ネイティブに超長文コンテキスト長をサポートし、巨大な文書や複雑なコードベースを単一のパスで処理することができます。このModelは、推論、コード生成、およびエージェントタスク(ツールの使用など)のために特別に最適化されつつ、バランスの取れた優れた汎用能力を維持しています。このModelの重要な特徴は、「Thinking Budget」機能であり、ユーザーが必要に応じて推論の長さを柔軟に調整できるようにし、実際のアプリケーションでのInference効率を効果的に向上させます。...

Total Context:

262K

Max output:

262K

Input:

$

0.21

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.57

/ M Tokens

Tencent

Text Generation

Hunyuan-A13B-Instruct

Hunyuan-A13B-Instructは、その80 Bのパラメーターのうち13 Bのみをアクティブにしますが、主流のベンチマークでより大きなLLMに匹敵します。ハイブリッド推論を提供し、低遅延の「高速」モードまたは高Precisionの「低速」モードを各呼び出しごとに切り替えることができます。ネイティブの256 K-tokenコンテキストにより、劣化せずに本のような長さのドキュメントを処理できます。エージェントスキルはBFCL-v3、τ-Bench、C3-Benchのリーダーシップに合わせて調整されており、優れた自律型アシスタントのバックボーンとなっています。グループ化されたQuery Attentionと多形式の量子化により、メモリ効率の良い、GPUに優しいInferenceを実現し、実際の展開での使用に備えています。企業向けアプリケーションのためのマルチリンガルサポートと強固な安全性調整を備えています。...

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-32B

Qwen3-32Bは、Qwenシリーズの最新の大規模言語モデルで、32.8Bのパラメーターを備えています。このモデルは、シームレスな切り替えを特長とし、複雑な論理的推論、数学、コーディングに対応する考えるモードと、効率的で汎用的な対話を行う非考えるモードを切り替えます。これは、数理、コード生成、常識的な論理推論において、以前のQwQやQwen2.5指示モデルを超える大幅に強化された推論能力を示しています。そのため、創造的な文章作成、ロールプレイング、マルチターンの対話において人間の好みとの整合性に優れています。さらに、強力な多言語の指示追従と翻訳能力を備え、100以上の言語と方言に対応しています。...

Total Context:

131K

Max output:

131K

Input:

$

0.14

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.57

/ M Tokens

Qwen

Text Generation

Qwen3-14B

Qwen3-14Bは、Qwenシリーズの最新の大型言語Modelで、14.8Bのパラメーターを持っています。このModelは、複雑な論理的推論、数学、コーディングの場合は思考モード、効率的で汎用的な対話のためには非思考モードの間でシームレスに切り替えることを独自にサポートします。それは数学、コード生成、常識的な論理推論において以前のQwQおよびQwen2.5指示Modelsを超える、著しく強化された推論能力を示しています。このModelは、創造的な執筆、ロールプレイ、マルチターン対話のための人間の好みの調整においても優れています。さらに、100以上の言語と方言を強力な多言語指示と翻訳能力でサポートします。...

Total Context:

131K

Max output:

131K

Input:

$

0.07

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.28

/ M Tokens

Qwen

Text Generation

Qwen3-8B

Qwen3-8BはQwenシリーズの最新の大規模言語モデルで、8.2Bのパラメータを持っています。このModelは、複雑な論理的推論、数学、コーディングに適した思考モードと、効率的な汎用対話に適した非思考モードの間でシームレスに切り替えることができるユニークな機能を持っています。それは、前のQwQやQwen2.5の指示モデルを超えた数学、コード生成、および常識的論理推論において、顕著に強化された推論能力を示しています。このModelは、創作、役割演技、マルチターン対話における人間の好みの調整に優れています。さらに、強力な多言語指示追従および翻訳能力を持ち、100以上の言語と方言をサポートしています...

Total Context:

131K

Max output:

131K

Input:

$

0.06

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.06

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-8B

Qwen3-Reranker-8Bは、Qwen3シリーズからの80億パラメータのText再ランク付けModelです。クエリへの関連性に基づいてドキュメントを正確に再順序付けすることによって、検索結果の品質を改善し、改善するように設計されています。強力なQwen3基盤モデルをベースに構築されており、32kのコンテキスト長で長いTextを理解し、100以上の言語をサポートします。Qwen3-Reranker-8B Modelは、さまざまなTextおよびコード検索シナリオで最先端のパフォーマンスを提供する柔軟なシリーズの一部です。...

$

0.04

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-8B

Qwen3-Embedding-8Bは、Qwen3 Embeddingシリーズの最新のプロプライエタリModelであり、特にText Embeddingおよびランキングタスク用に設計されています。この8BパラメータModelは、Qwen3シリーズの密な基盤Modelの上に構築されており、最大32Kのコンテキスト長をサポートし、最大4096の次元でEmbeddingを生成できます。このModelは、100を超える言語をサポートする優れた多言語機能を継承しており、長文理解と推論スキルを備えています。2025年6月5日時点ではMTEB多言語リーダーボードで第1位(スコア70.58)にランクされ、テキスト検索、コード検索、Text分類、クラスタリング、bitextマイニングなど、さまざまなタスクで最先端のパフォーマンスを示しています。このModelは、特定のタスクやシナリオでのパフォーマンスを向上させるために、柔軟なベクター次元(32から4096)と指示に応じた機能を提供します。...

Input:

$

0.04

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-4B

Qwen3-Embedding-4Bは、Qwen3 Embeddingシリーズ最新の独自Modelで、特にText Embeddingおよびランキングタスク用に設計されています。この4BパラメータModelは、Qwen3シリーズの密集した基礎Modelを基にしており、最大32Kのコンテキスト長をサポートし、最大2560の次元でEmbeddingを生成できます。このModelは、100を超える言語に対応した卓越した多言語機能を継承しており、長文理解と推論スキルを備えています。それは、MTEB多言語リーダーボードで優れた業績(スコア69.45)を達成し、テキスト検索、コード検索、Text分類、クラスタリング、およびバイテキストマイニングを含むさまざまなタスクで優れた結果を示しています。このModelは、特定のタスクやシナリオでのパフォーマンスを向上させるために、柔軟なベクトル次元(32から2560)と命令対応機能を提供し、効率性と効果性の間で最適なバランスを提供します。...

Input:

$

0.02

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Reranker

Qwen3-Reranker-0.6B

Qwen3-Reranker-0.6BはQwen3シリーズからのText再ランキングModelです。これは特定のクエリに対する関連性に基づいてドキュメントを再注文することにより、初期取得システムの結果を洗練するために特別に設計されています。0.6Bパラメータと32kのコンテキスト長を持つこのModelは、Qwen3の基盤の強力な多言語(100以上の言語をサポート)、長文理解、および推論能力を活用しています。評価結果は、Qwen3-Reranker-0.6BがMTEB-R、CMTEB-R、およびMLDRを含む様々なText取得ベンチマークで強力なパフォーマンスを達成することを示しています。...

$

0.01

/ M Tokens

Input:

$

text

/ M Tokens

Qwen

Embedding

Qwen3-Embedding-0.6B

Qwen3-Embedding-0.6Bは、Qwen3 Embeddingシリーズ内の最新の独自モデルであり、特にテキストEmbeddingおよびランキングタスク用に設計されています。Qwen3シリーズの密集した基盤モデルの上に構築されたこの0.6Bパラメータモデルは、32Kまでのコンテキスト長をサポートし、最大1024の次元でEmbeddingを生成できます。このModelは、100以上の言語をサポートする優れた多言語機能を引き継ぎ、長文理解と推論能力を備えています。MTEB多言語リーダーボードで強力なパフォーマンスを発揮し(スコア64.33)、テキスト検索、コード検索、テキスト分類、クラスタリング、およびバイテキストマイニングを含むさまざまなタスクで優れた結果を示しています。このModelは、柔軟なベクトル次元(32から1024)と特定のタスクおよびシナリオでのパフォーマンス向上のための指示対応能力を提供し、効率と効果の両方を優先するアプリケーションにとって理想的な選択肢となります。...

Input:

$

0.01

/ M Tokens

Input:

$

text

/ M Tokens

Z.ai

Text Generation

GLM-5.2

GLM-5.2 is Z.ai’s most capable open-source model to date, built for long-horizon agentic engineering with a truly usable 1M-token context window. It keeps project state intact across ultra-long tasks, reducing the need to compress or discard context—the longer the task, the more it can remember and reason....

Total Context:

1049K

Max output:

262K

Input:

$

1.4

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

4.4

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.7-Code

Kimi K2.7 Code is a coding-focused agentic model built upon Kimi K2.6. With substantial improvements on real-world long-horizon coding tasks, it strengthens end-to-end task completion across complex software engineering workflows while improving token efficiency, reducing thinking-token usage by approximately 30% compared with Kimi K2.6....

Total Context:

262K

Max output:

262K

Input:

$

0.94

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

4.0

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M3

MiniMax-M3 is MiniMax’s frontier multimodal coding and agentic model, built on the MiniMax Sparse Attention (MSA) architecture. It supports up to a 1M-token context window and accepts image and video inputs. The model is designed for code generation, agentic workflows, tool use, long-context understanding, and multi-step reasoning, showing strong performance on benchmarks such as SWE-Bench Pro, Terminal-Bench 2.1, and MCP Atlas....

Total Context:

1049K

Max output:

131K

Input:

$

0.3

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.2

/ M Tokens

Nex AGI

Text Generation

Nex-N2-Pro

Nex-N2 is a family of thinking models with Agentic Thinking. They adaptively decide when and how deeply to reason, unifying agent cognition across coding, search, and tool use into a single coherent paradigm. Key Claims - SOTA among open models on SWE-Verified, SWE-Pro, Terminal Bench 2.0, Tau3, WildClawBench, BFCL V4 - Top-tier in agentic coding (end-to-end dev loops), deep search (BrowserComp, Wild Search, FinSearch), and real-world productivity (GDP Val) - Adaptive Thinking: auto-adjusts reasoning depth per step, 30-50% fewer thinking tokens vs always-on, with equal or better performance - Plug-and-play with Claude Code, Cursor, OpenClaw, and agentic harnesses...

Total Context:

262K

Max output:

256K

Input:

$

0.5

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.5

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V4-Pro

DeepSeek-V4-Pro is DeepSeek's flagship open-source MoE model with 1.6T total parameters and 49B activated, purpose-built for frontier-level reasoning, coding, and agentic tasks. Supporting a 1M-token context window and three reasoning effort modes up to Think Max, it achieves top-tier performance on coding benchmarks such as LiveCodeBench and Codeforces — rivaling leading closed-source models — and is released under the MIT License....

Total Context:

1049K

Max output:

393K

Input:

$

1.6

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

3.135

/ M Tokens

DeepSeek

Text Generation

DeepSeek-V4-Flash

DeepSeek-V4-Flash is DeepSeek's latest open-source MoE model featuring 284B total parameters with only 13B activated during inference, delivering high-speed generation without sacrificing capability. With native support for a 1M-token context window and three switchable reasoning modes — Non-Think, Think High, and Think Max — it offers flexible intelligence scaling from everyday tasks to complex reasoning, all under the MIT License....

Total Context:

1049K

Max output:

393K

Input:

$

0.13

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.28

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.6

Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...

Total Context:

262K

Max output:

262K

Input:

$

0.77

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

4.0

/ M Tokens

Tencent

Text Generation

Hy3-preview

Hy3 preview is a 295B-parameter Mixture-of-Experts (MoE) language model from Tencent Hunyuan, built for production-grade agent workloads. With only 21B parameters activated per token and native 256K context support, it handles complex tasks like cross-file code refactoring, long-document analysis, and multi-step tool use, rather than just generating fluent dialogue. Hy3 scores near state-of-the-art on SWE-bench Verified and advanced STEM benchmarks, while offering three inference modes (no_think, think_low, think_high) to dynamically trade off latency and reasoning depth. Its sparse activation architecture delivers competitive intelligence at a significantly lower token cost....

Total Context:

262K

Max output:

262K

Input:

$

0.066

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.26

/ M Tokens

Z.ai

Text Generation

GLM-5.1

GLM-5.1 is Z.ai's next-generation flagship model built for agentic engineering. It is designed to run continuously for hours or even longer, refining its strategy as it works—the longer it runs, the better the results....

Total Context:

205K

Max output:

131K

Input:

$

1.19

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

4.3

/ M Tokens

Qwen

Text Generation

Qwen3.6-35B-A3B

Qwen3.6-35B-A3B is a large language model from Alibaba's Qwen3.6 series, featuring a Mixture of Experts (MoE) architecture with 35 billion total parameters and approximately 3 billion active parameters per inference, delivering strong performance with efficient compute utilization. The model supports both thinking and non-thinking modes, offering flexible switching between rapid response and deep reasoning...

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.6

/ M Tokens

Qwen

Text Generation

Qwen3.6-27B

Qwen3.6-27B is the first open-weight small-to-mid-sized dense model in the Qwen3.6 series, with targeted improvements for code generation, agent workflows, and real-world development tasks. Compared with Qwen3.5-27B, it delivers clear gains in frontend development, repository-level reasoning, tool use, and complex problem solving, while adding support for preserving reasoning context across turns to reduce redundant reasoning in iterative workflows. It also supports vision understanding with a native context length of 262,144 tokens...

Total Context:

262K

Max output:

262K

Input:

$

0.3

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

3.2

/ M Tokens

Qwen

Text Generation

Qwen2.5-72B-Instruct

Qwen2.5-72B-Instructは、Alibaba Cloudがリリースした最新の大規模言語モデルシリーズの1つです。この72B Modelは、コーディングや数学などの分野で大幅な改善を示しています。この Modelは中国語や英語を含む29以上の言語をサポートし、多言語対応を提供します。指示の理解、構造化データの理解、特にJSON形式の構造化 Outputの生成において顕著な向上を示しています。...

Total Context:

33K

Max output:

4K

Input:

$

0.59

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.59

/ M Tokens

Z.ai

Text Generation

GLM-5V-Turbo

GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....

Total Context:

205K

Max output:

131K

Input:

$

1.2

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

4.0

/ M Tokens

Qwen

Text Generation

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B is the latest vision-language model in the Qwen series, featuring a Mixture-of-Experts (MoE) architecture with 397B total parameters and 17B activated parameters. It natively supports 256K context length, extensible to approximately 1M tokens, with support for 201 languages, unified vision-language understanding, tool calling, and reasoning (thinking) mode...

Total Context:

262K

Max output:

262K

Input:

$

0.39

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.34

/ M Tokens

Qwen

Text Generation

Qwen3.5-122B-A10B

Qwen3.5-122B-A10B is a native multimodal large language model from the Qwen team, with 122B total parameters and only 10B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 256K context length extensible up to ~1M tokens. Through early fusion training, it achieves unified vision-language capabilities supporting text, image, and video understanding, with strong performance across knowledge, reasoning, coding, agents, visual understanding, and multilingual benchmarks, surpassing GPT-5-mini and Qwen3-235B-A22B on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

$

0.26

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.08

/ M Tokens

Qwen

Text Generation

Qwen2.5-7B-Instruct

Qwen2.5-7B-Instructは、Alibaba Cloudからリリースされた最新の大規模言語モデルシリーズの一つです。この7B Modelは、コーディングや数学などの分野で重要な改善を示しています。また、このModelは中国語、英語を含む29以上の言語をカバーする多言語サポートを提供します。このModelは、命令の遵守、構造化データの理解、特にJSONのような構造化されたOutputの生成において顕著な強化を示しています。...

Total Context:

33K

Max output:

4K

Input:

$

0.05

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.05

/ M Tokens

Qwen

Text Generation

Qwen3.5-35B-A3B

Qwen3.5-35B-A3B is a native multimodal large language model from the Qwen team, with 35B total parameters and only 3B activated. It features an efficient hybrid architecture combining Gated Delta Networks with sparse Mixture-of-Experts (MoE), natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

$

0.24

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.8

/ M Tokens

Qwen

Text Generation

Qwen3.5-27B

Qwen3.5-27B is a native multimodal large language model from the Qwen team with 27B parameters. It features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 256K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding with strong performance across reasoning, coding, agents, and visual understanding benchmarks, surpassing Qwen3-235B-A22B and GPT-5-mini on multiple metrics. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

$

0.25

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.0

/ M Tokens

Qwen

Text Generation

Qwen3.5-9B

Qwen3.5-9B is a native multimodal large language model from the Qwen team with 9B parameters. As a lightweight dense model in the Qwen3.5 series, it features an efficient hybrid architecture combining Gated Delta Networks with Gated Attention, natively supporting a 262K context length extensible up to ~1M tokens. The model achieves unified vision-language capabilities through early fusion training, supporting text, image, and video understanding. It defaults to thinking mode, supports tool calling, and covers 201 languages and dialects...

Total Context:

262K

Max output:

262K

Input:

$

0.1

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.15

/ M Tokens

MiniMaxAI

Text Generation

MiniMax-M2.5

MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...

Total Context:

197K

Max output:

131K

Input:

$

0.3

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

1.2

/ M Tokens

Z.ai

Text Generation

GLM-5

GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....

Total Context:

205K

Max output:

131K

Input:

$

0.95

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.55

/ M Tokens

StepFun

Text Generation

Step-3.5-Flash

Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...

Total Context:

262K

Max output:

66K

Input:

$

0.1

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.3

/ M Tokens

Google

Text Generation

gemma-4-12B-it

Gemma 4 26B is Google DeepMind's latest open-source MoE model, built on a 26B-parameter Mixture of Experts architecture that activates only 3.8B parameters during inference for exceptionally fast token throughput. Purpose-built for advanced reasoning and agentic workflows, it ranks #6 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....

Total Context:

262K

Max output:

262K

Input:

$

0.1

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.3

/ M Tokens

Moonshot AI

Text Generation

Kimi-K2.5

Kimi K2.5は、Kimi-K2-Baseの上に約15兆の混合視覚およびText tokensで継続的に事前学習されたオープンソースのネイティブMultimodalなエージェントモデルです。1TパラメータMoEアーキテクチャ(32Bアクティブ)と256Kコンテキスト長を備え、Visionと言語の理解を高度なエージェント機能とシームレスに統合し、即時モードと思考モード、そして会話およびエージェントのパラダイムをサポートします。...

Total Context:

262K

Max output:

262K

Input:

$

0.45

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

2.25

/ M Tokens

Google

Text Generation

gemma-4-26B-A4B-it

Gemma 4 26B is Google DeepMind's latest open-source MoE model, built on a 26B-parameter Mixture of Experts architecture that activates only 3.8B parameters during inference for exceptionally fast token throughput. Purpose-built for advanced reasoning and agentic workflows, it ranks #6 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....

Total Context:

262K

Max output:

262K

Input:

$

0.12

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.4

/ M Tokens

Google

Text Generation

gemma-4-31B-it

Gemma 4 31B is Google DeepMind's latest open-source model, built on a 31B dense architecture from the same research foundation as Gemini 3. Purpose-built for advanced reasoning and agentic workflows, it ranks #3 among all open models on the Arena AI leaderboard — outperforming models up to 20x its size — with native function-calling, 256K context, and full Apache 2.0 licensing....

Total Context:

262K

Max output:

262K

Input:

$

0.13

/ M Tokens

Input:

$

text

/ M Tokens

Output:

$

0.4

/ M Tokens

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?