DeepSeek
Text Generation
DeepSeek-V4-Pro
DeepSeek-V4-Pro is DeepSeek's flagship open-source MoE model with 1.6T total parameters and 49B activated, purpose-built for frontier-level reasoning, coding, and agentic tasks. Supporting a 1M-token context window and three reasoning effort modes up to Think Max, it achieves top-tier performance on coding benchmarks such as LiveCodeBench and Codeforces — rivaling leading closed-source models — and is released under the MIT License....
Total Context:
1049K
Max output:
393K
Input:
$
1.74
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.48
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V4-Flash
DeepSeek-V4-Flash is DeepSeek's latest open-source MoE model featuring 284B total parameters with only 13B activated during inference, delivering high-speed generation without sacrificing capability. With native support for a 1M-token context window and three switchable reasoning modes — Non-Think, Think High, and Think Max — it offers flexible intelligence scaling from everyday tasks to complex reasoning, all under the MIT License....
Total Context:
1049K
Max output:
393K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.28
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.6
Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...
Total Context:
262K
Max output:
262K
Input:
$
0.95
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

Tencent
Text Generation
Hy3-preview
Hy3 preview is a 295B-parameter Mixture-of-Experts (MoE) language model from Tencent Hunyuan, built for production-grade agent workloads. With only 21B parameters activated per token and native 256K context support, it handles complex tasks like cross-file code refactoring, long-document analysis, and multi-step tool use, rather than just generating fluent dialogue. Hy3 scores near state-of-the-art on SWE-bench Verified and advanced STEM benchmarks, while offering three inference modes (no_think, think_low, think_high) to dynamically trade off latency and reasoning depth. Its sparse activation architecture delivers competitive intelligence at a significantly lower token cost....
Total Context:
131K
Max output:
262K
Input:
$
0.0
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.0
/ M Tokens

Z.ai
Text Generation
GLM-5.1
GLM-5.1 is Z.ai's next-generation flagship model built for agentic engineering. It is designed to run continuously for hours or even longer, refining its strategy as it works—the longer it runs, the better the results....
Total Context:
205K
Max output:
131K
Input:
$
1.4
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.4
/ M Tokens

Z.ai
Text Generation
GLM-5V-Turbo
GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....
Total Context:
205K
Max output:
131K
Input:
$
1.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

MiniMaxAI
Text Generation
MiniMax-M2.5
MiniMax-M2.5 is MiniMax's latest large language model, extensively trained with reinforcement learning across hundreds of thousands of complex real-world environments. Built on a 229B-parameter MoE architecture, it achieves SOTA performance in coding, agentic tool use, search, and office work, scoring 80.2% on SWE-Bench Verified with 37% faster inference than M2.1...
Total Context:
197K
Max output:
131K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.2
/ M Tokens

Z.ai
Text Generation
GLM-5
GLM-5 is a next-generation open-source model for complex systems engineering and long-horizon agentic tasks, scaled to ~744B sparse parameters (~40B active) with ~28.5T pretraining tokens. It integrates DeepSeek Sparse Attention (DSA) to retain long-context capacity while reducing inference cost, and leverages the “slime” asynchronous RL stack to deliver strong performance in reasoning, coding, and agentic benchmarks....
Total Context:
205K
Max output:
131K
Input:
$
0.95
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.55
/ M Tokens

StepFun
Text Generation
Step-3.5-Flash
Step 3.5 Flash is StepFun's most capable open-source foundation model, built on a sparse Mixture of Experts (MoE) architecture with 196B total parameters and only 11B activated per token. It supports a 262K context window and achieves 100-300 tok/s generation throughput via 3-way Multi-Token Prediction (MTP-3). The model excels at coding and agentic tasks, achieving 74.4% on SWE-bench Verified and 51.0% on Terminal-Bench 2.0...
Total Context:
262K
Max output:
66K
Input:
$
0.1
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.3
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.5
Kimi K2.5は、Kimi-K2-Baseの上に約15兆の混合視覚およびText tokensで継続的に事前学習されたオープンソースのネイティブMultimodalなエージェントモデルです。1TパラメータMoEアーキテクチャ(32Bアクティブ)と256Kコンテキスト長を備え、Visionと言語の理解を高度なエージェント機能とシームレスに統合し、即時モードと思考モード、そして会話およびエージェントのパラダイムをサポートします。...
Total Context:
262K
Max output:
262K
Input:
$
0.23
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.7
GLM-4.7はZhipuの新世代フラッグシップModelで、総パラメーターは355B、アクティベートパラメーターは32Bあり、会話、推論、エージェント機能において総合的なアップグレードを提供します。回答はより簡潔で自然になり、執筆はより没入感があり、ツールコール指示はより確実に遵守され、アーティファクトと代理コーディングのフロントエンド仕上げや、長期的タスク完了効率がさらに向上しました。...
Total Context:
205K
Max output:
205K
Input:
$
0.42
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.2
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2
DeepSeek-V3.2は、優れた推論とエージェントのパフォーマンスを高い計算効率で調和させるModelです。そのアプローチは、次の3つの主要な技術的ブレークスルーに基づいています:DeepSeek Sparse Attention(DSA)、計算複雑性を実質的に削減しながらModel性能を維持し、特に長文脈シナリオに最適化された効率的なアテンションメカニズム;GPT-5に匹敵するパフォーマンスと、Gemini-3.0-Proの高精度バリアントと並ぶ推論能力を実現するスケーラブルな強化学習フレームワーク;そして、ツール使用シナリオに推論を統合し、複雑なインタラクティブ環境での準拠性と一般化を改善する大規模エージェントタスク合成パイプラインです。Modelは2025年の国際数学オリンピック(IMO)および国際情報オリンピック(IOI)で金メダルの実績を達成しました。...
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.42
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.2-Exp
DeepSeek-V3.2-Expは、DeepSeekモデルの実験バージョンであり、V3.1-Terminusに基づいています。これは、長いコンテキストでのより高速で効率的なトレーニングとInferenceのためにDeepSeek Sparse Attention(DSA)をデビューさせます。...
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.41
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
GLM-4.6Vは、同じパラメータスケールのモデルにおいて、視覚理解の分野でSOTA(最先端)の精度を達成しました。初めて、視覚モデルのアーキテクチャにFunction Call機能をネイティブに統合し、「視覚的認識」と「実行可能な行動」の間のギャップを橋渡しします。これにより、現実のビジネスシナリオにおけるMultimodal Agentの統一技術基盤が提供されます。さらに、視覚コンテキストウィンドウが128kに拡張され、長いVideoストリーム処理と高解像度のマルチImage分析をサポートします。...
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.9
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1-Terminus
DeepSeek-V3.1-Terminusは、V3.1の強みを基にし、主要なユーザーフィードバックに対応した更新バージョンです。言語の一貫性を向上させ、中国語と英語が混在したTextや時折発生する異常な文字を減らしています。また、Code AgentとSearch Agentの性能も強化されています。...
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3.1
DeepSeek-V3.1はハイブリッドモデルで、思考モードと非思考モードの両方をサポートしています。ポストトレーニングの最適化により、モデルのツール使用とエージェントタスクにおけるパフォーマンスが大幅に向上しました。DeepSeek-V3.1-Thinkは、DeepSeek-R1-0528と同等の回答品質を達成し、より迅速に応答します。...
Total Context:
164K
Max output:
164K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-V3
DeepSeek-V3-0324は、推論性能の大幅な向上、強力なフロントエンド開発スキル、よりスマートなツール使用能力など、いくつかの重要な側面で前モデルのDeepSeek-V3を大きく上回る改善を示しています。...
Total Context:
164K
Max output:
164K
Input:
$
0.25
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1
DeepSeek-R1-0528は、複雑な推論タスクの処理において大幅な改善を示すアップグレードされたModelであり、幻覚率の低減、関数呼び出しのサポート強化、およびバイブコーディングのより良い経験も提供します。これは、O3およびGemini 2.5 Proに匹敵するパフォーマンスを達成します。...
Total Context:
164K
Max output:
164K
Input:
$
0.5
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.18
/ M Tokens

Tongyi-MAI
Text-to-Image
Z-Image-Turbo
$
0.005
/ Image
Input:
$
text
/ Image


Nex AGI
Text Generation
DeepSeek-V3.1-Nex-N1
DeepSeek-V3.1-Nex-N1は、最先端のオープンソースモデルを基に開発され、後トレーニングを通じて最適化された大規模な言語Modelです。この最適化により、その機能が著しく向上し、エージェントタスクやコード生成と理解、ツールの使用、役割演技で卓越したパフォーマンスを発揮します。Modelは複雑なタスクを多段階計画に分解し、信頼性と正確な実行を確保するために積極的に不明点を明確化するのに優れています。...
Total Context:
131K
Max output:
164K
Input:
$
0.135
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
Qwen3-VLは、Qwen3シリーズのVision-Languageモデルであり、さまざまなVision-Language(VL)ベンチマークで最先端(SOTA)のパフォーマンスを達成しています。このModelは、メガピクセルレベルまでの高解像度Image入力をサポートし、一般的な視覚理解、多言語OCR、細かな視覚的グラウンディング、視覚的対話における強力な機能を備えています。Qwen3シリーズの一部として、強力な言語基盤を継承しており、複雑な指示を理解し実行することができます。...
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
Qwen3-VL-Thinkingは、複雑な視覚的推論タスクのために特別に最適化されたQwen3-VLシリーズのバージョンです。これは"Thinking Mode"を取り入れており、最終的な答えを出す前に詳細な中間推論ステップ(Chain-of-Thought)を生成できます。この設計は、マルチステップの論理、計画、および詳細な分析を必要とする視覚質問応答(VQA)やその他のビジョン-言語タスクにおいて、モデルのパフォーマンスを大幅に向上させます。...
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
Qwen3-VL-8B-InstructはQwen3シリーズのVision-Imageモデルであり、一般的な視覚理解、視覚中心の対話、画像における多言語Text認識において強力な能力を示しています。...
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
Qwen3-VL-235B-A22B-Instructは235Bパラメータを持つ専門家の集合(MoE)Vision-language Modelで、22Bのアクティブパラメータがあります。これはQwen3-VL-235B-A22Bの指示調整されたバージョンで、Chatアプリケーションに合わせられています。...
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
Qwen3-VL-235B-A22B-Thinking は Qwen3-VL シリーズのモデルの一つで、最先端の結果を達成する推論強化版の Thinking エディションです。これは、多くのマルチモーダル推論ベンチマークで優れた成果を挙げており、STEM、数学、因果分析、論理的かつ証拠に基づいた回答に秀でています。全パラメータが235Bで、アクティブパラメータが22Bの合計パラメータを持つ、ミックスチャーオブエキスパート (MoE) アーキテクチャを備えています。...
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
Qwen3-VLシリーズは、優れたTextの理解と生成、より深い視覚的知覚と推論、拡張されたコンテキスト長、強化された空間およびVideoダイナミクスの理解、より強力なエージェント相互作用の機能を提供します。エッジからクラウドまでスケールするDenseおよびMoEアーキテクチャで利用可能で、指示と推論が強化されたThinkingエディションが含まれています。...
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
Qwen3-VLシリーズは、優れたTextの理解と生成、より深い視覚的知覚と推論、拡張されたコンテキスト長、強化された空間およびVideoダイナミクスの理解、より強力なエージェント相互作用の機能を提供します。エッジからクラウドまでスケールするDenseおよびMoEアーキテクチャで利用可能で、指示と推論が強化されたThinkingエディションが含まれています。...
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct-0905
Kimi K2-Instruct-0905は、最先端のエキスパート集合(MoE)言語モデルであり、Kimi K2の最新で最も高度なバージョンです。主な特徴には、特にフロントエンドとツール呼び出しのためのコーディング機能の強化、コンテキスト長が256k tokensに拡張されたこと、さまざまなエージェントスカフォールドとの統合の改善が含まれています。...
Total Context:
262K
Max output:
262K
Input:
$
0.4
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2
/ M Tokens
OpenAI
Text Generation
gpt-oss-120b
gpt-ossシリーズは、強力な推論、エージェントタスク、および多目的な開発者ユースケース向けに設計されたOpenAIのオープンウェイトのモデルです。gpt-oss-120bは生産、汎用、高度な推論ユースケース向けで、単一の80GB GPU(例えばNVIDIA H100やAMD MI300X)に収まります。...
Total Context:
131K
Max output:
8K
Input:
$
0.05
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.45
/ M Tokens
OpenAI
Text Generation
gpt-oss-20b
gpt-ossシリーズは、OpenAIの強力な推論、エージェンティックなタスク、および多目的な開発者のユースケースのために設計されたオープンウェイトモデルです。gpt-oss-20bは低遅延、ローカルまたは専門的なユースケース用です。...
Total Context:
131K
Max output:
8K
Input:
$
0.04
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.18
/ M Tokens

Z.ai
Text Generation
GLM-4.6
GLM-4.5と比較して、GLM-4.6はいくつかの重要な改善をもたらします。200K tokensまで拡張された長いコンテキストウィンドウ、優れたコーディング性能、高度な推論、より能力の高いエージェント、そして洗練された執筆を含みます。...
Total Context:
205K
Max output:
205K
Input:
$
0.39
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.9
/ M Tokens

Z.ai
Text Generation
GLM-4.5-Air
GLM-4.5シリーズのモデルは、インテリジェントエージェントのために設計されたファウンデーションモデルです。GLM-4.5-Airは、合計1060億のパラメーターと、120億のアクティブパラメーターを備えた、よりコンパクトな設計を採用しています。また、思考モードと非思考モードの両方を提供するハイブリッド推論モデルでもあります。...
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.86
/ M Tokens

Qwen
Image-to-Video
Wan2.2-I2V-A14B
$
0.29
/ Video
Input:
$
text
/ Video


Qwen
Text-to-Video
Wan2.2-T2V-A14B
$
0.29
/ Video
Input:
$
text
/ Video


inclusionAI
Text Generation
Ling-flash-2.0
Ling-flash-2.0 は inclusionAI の言語 Model で、合計 1,000 億パラメーターを持ち、そのうち 61 億は token ごとにアクティブ化されます(48 億は非 Embedding)。Ling 2.0 アーキテクチャシリーズの一部として、軽量でありながら強力な専門集団(MoE) Model として設計されています。40B レベルの密集 Model や他の大規模な MoE Model に匹敵する、またはそれを超える性能を提供することを目指していますが、アクティブなパラメーター数は大幅に少なくなっています。この Model は、極端なアーキテクチャのデザインとトレーニング手法を通じて高性能と効率を達成することに焦点を当てた戦略を表しています。...
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

inclusionAI
Text Generation
Ring-flash-2.0
Ring-flash-2.0は、Ling-flash-2.0-baseに基づいて深く最適化された高性能思考モデルです。これは、合計100Bのパラメータを持つ専門家混合(MoE)Modelですが、Inferenceごとに起動するのはわずか6.1Bです。このModelは、強化学習(RL)におけるMoE LLMsのトレーニング不安定性の課題に対処するために独自に開発された「icepop」アルゴリズムを活用しており、拡張されたRLトレーニングサイクル全体でその複雑な推論能力を継続的に向上させます。Ring-flash-2.0は、数学コンペティション、コード生成、論理的推論を含む挑戦的なベンチマークで大幅な突破を示しています。その性能は、40Bパラメータ未満のSOTA密集モデルを凌ぎ、より大きなオープンウェイトのMoE Modelやクローズドソースの高性能思考Model APIに匹敵します。より驚くべきことに、Ring-flash-2.0は主に複雑な推論のために設計されていますが、創造的なライティングにも強い能力を示します。その効率的なアーキテクチャのおかげで、高速Inferenceを達成し、高並列シナリオでの思考ModelのInferenceコストを大幅に削減します。...
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text-to-Image
Qwen-Image
$
0.02
/ Image
Input:
$
text
/ Image


Qwen
Image-to-Image
Qwen-Image-Edit
$
0.04
/ Image
Input:
$
text
/ Image


Qwen
Text Generation
Qwen3-Coder-480B-A35B-Instruct
Qwen3-Coder-480B-A35B-Instructは、Alibabaによってこれまでにリリースされた中で最もエージェンティックなコードModelです。それは4800億の総パラメータと350億の活性化パラメータを持つエキスパートのミクスチャー (MoE) Modelであり、効率とパフォーマンスのバランスを取っています。このModelは256K(約262,144)tokenのコンテキスト長をネイティブにサポートし、YaRNのような外挿法を用いることで100万tokenまで拡張可能で、リポジトリ規模のコードベースや複雑なプログラミングタスクを処理することができます。Qwen3-Coderは、エージェンティックコーディングワークフローのために特別に設計されており、コードを生成するだけでなく、開発者ツールや環境と自律的に対話して複雑な問題を解決します。最先端のオープンModelの中でコーディングとエージェンティックなベンチマークで最先端の結果を達成しており、Claude Sonnet 4のような先進的なModelに匹敵するパフォーマンスを持っています。このModelと共に、Alibabaはその強力なエージェンティックコーディング能力を完全に発揮するために設計されたコマンドラインツールであるQwen Codeもオープンソース化しました。...
Total Context:
262K
Max output:
262K
Input:
$
0.25
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-480B-A35B
Qwen3-Coder-480B-A35B-Instruct is the most agentic code model released by Alibaba to date. It is a Mixture-of-Experts (MoE) model with 480 billion total parameters and 35 billion activated parameters, balancing efficiency and performance. The model natively supports a 256K (approximately 262,144) token context length, which can be extended up to 1 million tokens using extrapolation methods like YaRN, enabling it to handle repository-scale codebases and complex programming tasks. Qwen3-Coder is specifically designed for agentic coding workflows, where it not only generates code but also autonomously interacts with developer tools and environments to solve complex problems. It has achieved state-of-the-art results among open models on various coding and agentic benchmarks, with performance comparable to leading models like Claude Sonnet 4. Alongside the model, Alibaba has also open-sourced Qwen Code, a command-line tool designed to fully unleash its powerful agentic coding capabilities...
Total Context:
262K
Max output:
262K
Input:
$
0.25
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-30B-A3B-Instructは、AlibabaのQwenチームによって開発されたQwen3シリーズのコードModelです。洗練され最適化されたModelとして、強化されたコーディング機能に焦点を当てつつ、印象的なパフォーマンスと効率を維持しています。Agentic Coding、Agentic Browser-Use、その他の基礎的なコーディングタスクのような複雑なタスクにおいて、オープンソースのModel間で顕著なパフォーマンスの優位性を示しています。このModelは、256K tokenという長いコンテキストをネイティブにサポートしており、1M tokenまで拡張可能で、リポジトリ規模の理解と処理をより良くします。さらに、Qwen CodeやCLINEのようなプラットフォームのための強力なエージェンティックコーディングのサポートを提供し、特別に設計された関数呼び出しフォーマットを備えています。...
Total Context:
262K
Max output:
262K
Input:
$
0.07
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Instruct-2507
Qwen3-30B-A3B-Instruct-2507はQwen3-30B-A3B無考モードの更新版です。それは30.5億の総パラメータと3.3億の活性化パラメータを持つエキスパートの組合せ(MoE)モデルです。このバージョンは、指示の遵守、論理的推論、Text理解、数学、科学、コーディング、ツールの使用などの一般的な能力の顕著な改善を含む重要な強化を特徴としています。また、多言語にわたる長い知識のカバー率における大幅な向上を示し、主観的でオープンエンドなタスクにおいてユーザーの好みとの整合性が著しく向上し、より役立つ応答と高品質なText生成を可能にします。さらに、256Kまでの長いコンテキスト理解能力が強化されました。このModelは無考モードのみをサポートし、Outputに`<think></think>`ブロックを生成しません。...
Total Context:
262K
Max output:
262K
Input:
$
0.09
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-30B-A3B-Thinking-2507
Qwen3-30B-A3B-Thinking-2507は、アリババのQwenチームによってリリースされたQwen3シリーズの最新のシンキングModelです。30.5億の総パラメータと3.3億のアクティブパラメータを持つ専門家の集合(MoE)Modelであり、複雑なタスクへの能力向上に注力しています。Modelは、論理的推論、数学、科学、コーディング、通常は人間の専門知識を必要とする学術ベンチマークなどの推論タスクで顕著に改善されたパフォーマンスを示しています。また、指示のフォロー、ツールの使用、Text生成、人間の好みに一致する能力など、一般的な能力も大幅に向上しています。Modelは256Kの長文脈理解能力をネイティブにサポートしており、最大100万tokenまで拡張可能です。このバージョンは、段階的な推論を通じて非常に複雑な問題に取り組むために「シンキングモード」に特化して設計されており、代理行動能力にも優れています。...
Total Context:
262K
Max output:
131K
Input:
$
0.09
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.3
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Instruct-2507
Qwen3-235B-A22B-Instruct-2507は、Alibaba CloudのQwenチームによって開発されたQwen3シリーズのフラッグシップMixture-of-Experts(MoE)大規模言語モデルです。このモデルは、合計2350億のパラメータを持ち、各フォワードパスで22億が活性化されます。Qwen3-235B-A22B非思考モードの更新版としてリリースされ、指示のフォロー、論理的な推論、テキスト理解、数学、科学、コーディング、およびツールの使用などの一般的な機能において重要な強化を備えています。さらに、このモデルは複数の言語にわたる長尾の知識カバレッジにおいて大幅な向上を示し、主観的でオープンエンドのタスクにおいてユーザーの好みにより良く合致するようになり、より役立つ応答と高品質なテキスト生成を可能にします。特に、256K (262,144 tokens) の広範なコンテキストウィンドウをネイティブにサポートし、長文コンテキストの理解能力を向上させます。このバージョンは非思考モードに専念し、<think>ブロックを生成せず、直接的なQ&Aや知識検索のようなタスクにおいてより効率的で正確な応答を提供することを目指しています。...
Total Context:
262K
Max output:
262K
Input:
$
0.09
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B-Thinking-2507は、アリババのQwenチームによって開発されたQwen3の大規模言語モデルシリーズのメンバーで、非常に複雑な推論タスクを専門としています。このModelは、Mixture-of-Experts (MoE)アーキテクチャに基づいており、合計2350億のパラメータと、tokenあたり約220億のアクティブパラメータを持ち、計算効率を高めながら強力なパフォーマンスを維持しています。専用の「thinking」Modelとして、人間の専門知識を必要とする課題(論理的推論、数学、科学、コーディング、学術ベンチマークなど)において、オープンソースのthinkingモデルの中で最先端の結果を達成しています。さらに、このModelは、指示の追従、ツールの使用、Text生成といった一般的な能力が強化されており、256Kのロングコンテキスト理解能力をネイティブにサポートし、深い推論や長文の処理を必要とするシナリオに理想的です。...
Total Context:
262K
Max output:
262K
Input:
$
0.13
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.6
/ M Tokens
ByteDance
Text Generation
Seed-OSS-36B-Instruct
Seed-OSSは、ByteDance Seedチームによって開発されたオープンソースの大規模言語Modelのシリーズであり、強力な長文コンテキスト処理、推論、エージェント機能、および汎用能力のために設計されています。このシリーズ内では、Seed-OSS-36B-Instructは、36億のパラメータを持つ命令調整済みModelであり、ネイティブに超長文コンテキスト長をサポートし、巨大な文書や複雑なコードベースを単一のパスで処理することができます。このModelは、推論、コード生成、およびエージェントタスク(ツールの使用など)のために特別に最適化されつつ、バランスの取れた優れた汎用能力を維持しています。このModelの重要な特徴は、「Thinking Budget」機能であり、ユーザーが必要に応じて推論の長さを柔軟に調整できるようにし、実際のアプリケーションでのInference効率を効果的に向上させます。...
Total Context:
262K
Max output:
262K
Input:
$
0.21
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

BAIDU
Text Generation
ERNIE-4.5-300B-A47B
ERNIE-4.5-300B-A47Bは、Baiduによって開発された大規模言語Modelであり、Mixture-of-Experts (MoE)アーキテクチャに基づいています。このModelは合計3000億のパラメータを持っていますが、tokenごとのInferenceでは470億のパラメータのみを活性化し、強力なパフォーマンスと計算効率を両立させています。ERNIE 4.5シリーズのコアModelの一つとして、PaddlePaddle深層学習フレームワーク上でトレーニングされ、Text理解、生成、推論、コーディングなどのタスクで優れた能力を示しています。このModelは革新的なMultimodal異種MoE事前トレーニング手法を利用しており、Textと視覚モダリティの共同トレーニングを通じてその全体的な能力を効果的に向上させ、指示に従うことや世界の知識記憶において顕著な結果を示しています。BaiduはAI技術の研究と応用を促進するために、このModelを含むシリーズの他のモデルをオープンソース化しています。...
Total Context:
131K
Max output:
131K
Input:
$
0.28
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.1
/ M Tokens

Tencent
Text Generation
Hunyuan-A13B-Instruct
Hunyuan-A13B-Instructは、その80 Bのパラメーターのうち13 Bのみをアクティブにしますが、主流のベンチマークでより大きなLLMに匹敵します。ハイブリッド推論を提供し、低遅延の「高速」モードまたは高Precisionの「低速」モードを各呼び出しごとに切り替えることができます。ネイティブの256 K-tokenコンテキストにより、劣化せずに本のような長さのドキュメントを処理できます。エージェントスキルはBFCL-v3、τ-Bench、C3-Benchのリーダーシップに合わせて調整されており、優れた自律型アシスタントのバックボーンとなっています。グループ化されたQuery Attentionと多形式の量子化により、メモリ効率の良い、GPUに優しいInferenceを実現し、実際の展開での使用に備えています。企業向けアプリケーションのためのマルチリンガルサポートと強固な安全性調整を備えています。...
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2-Instruct
Kimi K2は、Mixture-of-Experts (MoE)ファウンデーションModelで、コードおよびエージェント機能に優れ、総計1兆のパラメーターと320億のアクティブなパラメーターを特徴としています。一般的な知識推論、プログラミング、数学、およびエージェント関連のタスクをカバーするベンチマーク評価において、K2モデルは他の主要なオープンソースモデルを凌駕します。...
Total Context:
131K
Max output:
131K
Input:
$
0.58
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
2.29
/ M Tokens

Qwen
Text Generation
Qwen3-32B
Qwen3-32Bは、Qwenシリーズの最新の大規模言語モデルで、32.8Bのパラメーターを備えています。このモデルは、シームレスな切り替えを特長とし、複雑な論理的推論、数学、コーディングに対応する考えるモードと、効率的で汎用的な対話を行う非考えるモードを切り替えます。これは、数理、コード生成、常識的な論理推論において、以前のQwQやQwen2.5指示モデルを超える大幅に強化された推論能力を示しています。そのため、創造的な文章作成、ロールプレイング、マルチターンの対話において人間の好みとの整合性に優れています。さらに、強力な多言語の指示追従と翻訳能力を備え、100以上の言語と方言に対応しています。...
Total Context:
131K
Max output:
131K
Input:
$
0.14
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.57
/ M Tokens

Qwen
Text Generation
Qwen3-14B
Qwen3-14Bは、Qwenシリーズの最新の大型言語Modelで、14.8Bのパラメーターを持っています。このModelは、複雑な論理的推論、数学、コーディングの場合は思考モード、効率的で汎用的な対話のためには非思考モードの間でシームレスに切り替えることを独自にサポートします。それは数学、コード生成、常識的な論理推論において以前のQwQおよびQwen2.5指示Modelsを超える、著しく強化された推論能力を示しています。このModelは、創造的な執筆、ロールプレイ、マルチターン対話のための人間の好みの調整においても優れています。さらに、100以上の言語と方言を強力な多言語指示と翻訳能力でサポートします。...
Total Context:
131K
Max output:
131K
Input:
$
0.07
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.28
/ M Tokens

Qwen
Text Generation
Qwen3-8B
Qwen3-8BはQwenシリーズの最新の大規模言語モデルで、8.2Bのパラメータを持っています。このModelは、複雑な論理的推論、数学、コーディングに適した思考モードと、効率的な汎用対話に適した非思考モードの間でシームレスに切り替えることができるユニークな機能を持っています。それは、前のQwQやQwen2.5の指示モデルを超えた数学、コード生成、および常識的論理推論において、顕著に強化された推論能力を示しています。このModelは、創作、役割演技、マルチターン対話における人間の好みの調整に優れています。さらに、強力な多言語指示追従および翻訳能力を持ち、100以上の言語と方言をサポートしています...
Total Context:
131K
Max output:
131K
Input:
$
0.06
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.06
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-8B
Qwen3-Reranker-8Bは、Qwen3シリーズからの80億パラメータのText再ランク付けModelです。クエリへの関連性に基づいてドキュメントを正確に再順序付けすることによって、検索結果の品質を改善し、改善するように設計されています。強力なQwen3基盤モデルをベースに構築されており、32kのコンテキスト長で長いTextを理解し、100以上の言語をサポートします。Qwen3-Reranker-8B Modelは、さまざまなTextおよびコード検索シナリオで最先端のパフォーマンスを提供する柔軟なシリーズの一部です。...
$
0.04
/ M Tokens
Input:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-8B
Qwen3-Embedding-8Bは、Qwen3 Embeddingシリーズの最新のプロプライエタリModelであり、特にText Embeddingおよびランキングタスク用に設計されています。この8BパラメータModelは、Qwen3シリーズの密な基盤Modelの上に構築されており、最大32Kのコンテキスト長をサポートし、最大4096の次元でEmbeddingを生成できます。このModelは、100を超える言語をサポートする優れた多言語機能を継承しており、長文理解と推論スキルを備えています。2025年6月5日時点ではMTEB多言語リーダーボードで第1位(スコア70.58)にランクされ、テキスト検索、コード検索、Text分類、クラスタリング、bitextマイニングなど、さまざまなタスクで最先端のパフォーマンスを示しています。このModelは、特定のタスクやシナリオでのパフォーマンスを向上させるために、柔軟なベクター次元(32から4096)と指示に応じた機能を提供します。...
Input:
$
0.04
/ M Tokens
Input:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-4B
Qwen3-Embedding-4Bは、Qwen3 Embeddingシリーズ最新の独自Modelで、特にText Embeddingおよびランキングタスク用に設計されています。この4BパラメータModelは、Qwen3シリーズの密集した基礎Modelを基にしており、最大32Kのコンテキスト長をサポートし、最大2560の次元でEmbeddingを生成できます。このModelは、100を超える言語に対応した卓越した多言語機能を継承しており、長文理解と推論スキルを備えています。それは、MTEB多言語リーダーボードで優れた業績(スコア69.45)を達成し、テキスト検索、コード検索、Text分類、クラスタリング、およびバイテキストマイニングを含むさまざまなタスクで優れた結果を示しています。このModelは、特定のタスクやシナリオでのパフォーマンスを向上させるために、柔軟なベクトル次元(32から2560)と命令対応機能を提供し、効率性と効果性の間で最適なバランスを提供します。...
Input:
$
0.02
/ M Tokens
Input:
$
text
/ M Tokens

Qwen
Reranker
Qwen3-Reranker-0.6B
Qwen3-Reranker-0.6BはQwen3シリーズからのText再ランキングModelです。これは特定のクエリに対する関連性に基づいてドキュメントを再注文することにより、初期取得システムの結果を洗練するために特別に設計されています。0.6Bパラメータと32kのコンテキスト長を持つこのModelは、Qwen3の基盤の強力な多言語(100以上の言語をサポート)、長文理解、および推論能力を活用しています。評価結果は、Qwen3-Reranker-0.6BがMTEB-R、CMTEB-R、およびMLDRを含む様々なText取得ベンチマークで強力なパフォーマンスを達成することを示しています。...
$
0.01
/ M Tokens
Input:
$
text
/ M Tokens

Qwen
Embedding
Qwen3-Embedding-0.6B
Qwen3-Embedding-0.6Bは、Qwen3 Embeddingシリーズ内の最新の独自モデルであり、特にテキストEmbeddingおよびランキングタスク用に設計されています。Qwen3シリーズの密集した基盤モデルの上に構築されたこの0.6Bパラメータモデルは、32Kまでのコンテキスト長をサポートし、最大1024の次元でEmbeddingを生成できます。このModelは、100以上の言語をサポートする優れた多言語機能を引き継ぎ、長文理解と推論能力を備えています。MTEB多言語リーダーボードで強力なパフォーマンスを発揮し(スコア64.33)、テキスト検索、コード検索、テキスト分類、クラスタリング、およびバイテキストマイニングを含むさまざまなタスクで優れた結果を示しています。このModelは、柔軟なベクトル次元(32から1024)と特定のタスクおよびシナリオでのパフォーマンス向上のための指示対応能力を提供し、効率と効果の両方を優先するアプリケーションにとって理想的な選択肢となります。...
Input:
$
0.01
/ M Tokens
Input:
$
text
/ M Tokens

Black Forest Labs
Image-to-Image
FLUX.1-Kontext-dev
$
0.015
/ Image
Input:
$
text
/ Image


Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instructは、QwenチームによってリリースされたMultimodal大型言語Modelで、Qwen2.5-VLシリーズの一部です。このModelは一般的なオブジェクトを認識するだけでなく、Images内のText、チャート、アイコン、グラフィック、レイアウトを分析する能力に優れています。視覚エージェントとして、論理的に推論し、コンピュータや携帯電話を使用するためのツールを動的に指示することができます。さらに、このModelはImages内のオブジェクトを正確にローカライズし、請求書やテーブルなどのデータに対して構造化されたOutputsを生成することが可能です。前任のQwen2-VLと比較して、このバージョンは強化学習による数学的および問題解決能力が向上しており、応答のスタイルが人間の嗜好により良く合うように調整されています。...
Total Context:
131K
Max output:
131K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
QwQ-32B
QwQはQwenシリーズの推論Modelです。従来の指示調整済みModelと比較して、思考と推論が可能なQwQは、特に困難な問題において、下流タスクで大幅に向上したパフォーマンスを達成できます。QwQ-32Bは中型の推論Modelであり、最先端の推論Model、例えばDeepSeek-R1、o1-miniに対抗できる競争力のあるパフォーマンスを達成することができます。このModelは、RoPE、SwiGLU、RMSNorm、Attention QKVバイアスなどの技術を取り入れており、64層と40のQアテンションヘッド(GQAアーキテクチャではKVに8つ)を備えています。...
Total Context:
131K
Max output:
131K
Input:
$
0.15
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.58
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
Qwen2.5-VLはQwen2.5シリーズのビジョン-言語モデルであり、いくつかの側面で大きな向上を示しています。それは共通のオブジェクトを認識しながらテキスト、チャート、およびレイアウトを分析する強力な視覚理解能力を備えており、推論し、動的にツールを指示できる視覚エージェントとして機能します。また、1時間以上のビデオを理解し、重要なイベントをキャプチャすることができます。さらに、画像の中のオブジェクトを正確に特定し、バウンディングボックスやポイントを生成して局在化します。請求書やフォームのようなスキャンデータのための構造化された出力をサポートしており、Image、Video、およびエージェントタスクを含むさまざまなベンチマークで優れたパフォーマンスを示します。...
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.59
/ M Tokens
DeepSeek
Text Generation
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Qwen-32BはQwen2.5-32Bに基づいて蒸留されたModelです。ModelはDeepSeek-R1によって生成された80万の選別されたサンプルを使用してファインチューニングされ、数学、プログラミング、推論タスクにおいて卓越したパフォーマンスを示します。AIME 2024、MATH-500、GPQA Diamondを含む様々なベンチマークで印象的な結果を達成し、MATH-500では94.3%の正確性を達成し、その強力な数学的推論能力を示しています。...
Total Context:
131K
Max output:
131K
Input:
$
0.18
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.18
/ M Tokens

Qwen
Text Generation
Qwen2.5-72B-Instruct
Qwen2.5-72B-Instructは、Alibaba Cloudがリリースした最新の大規模言語モデルシリーズの1つです。この72B Modelは、コーディングや数学などの分野で大幅な改善を示しています。この Modelは中国語や英語を含む29以上の言語をサポートし、多言語対応を提供します。指示の理解、構造化データの理解、特にJSON形式の構造化 Outputの生成において顕著な向上を示しています。...
Total Context:
33K
Max output:
4K
Input:
$
0.59
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-7B-Instruct
Qwen2.5-7B-Instructは、Alibaba Cloudからリリースされた最新の大規模言語モデルシリーズの一つです。この7B Modelは、コーディングや数学などの分野で重要な改善を示しています。また、このModelは中国語、英語を含む29以上の言語をカバーする多言語サポートを提供します。このModelは、命令の遵守、構造化データの理解、特にJSONのような構造化されたOutputの生成において顕著な強化を示しています。...
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.05
/ M Tokens
IndexTeam
Text-to-Speech
IndexTTS-2
IndexTTS2は、広範なTTSシステムにおける継続時間制御の挑戦を解決するために設計された画期的な自動回帰型ゼロショットText-to-Speech(TTS)Modelです。これは、ビデオダビングのようなアプリケーションでは重要な制限です。IndexTTS2は、音声の継続時間を制御するための新しい一般的な方法を導入し、正確な継続時間のために生成されるトークンの数を明示的に指定するモードと、自動回帰的に自由に音声を生成するモードをサポートします。さらに、IndexTTS2は感情表現と話者のアイデンティティの分離を達成し、別々のプロンプトを介して声質と感情を独立して制御することを可能にします。高度な感情表現における音声の明瞭性を向上させるために、ModelはGPT潜在表現を組み込み、革新的な3段階のトレーニング方法を利用しています。感情制御の障壁を下げるために、テキストによる説明に基づいたソフトインストラクションメカニズムも備え、微調整Qwen3によって開発され、望ましい感情の音色での音声生成を効果的にガイドします。実験結果では、IndexTTS2が複数のデータセットにおける単語エラー率、話者の類似性、感情的忠実性において、最先端のゼロショットTTSModelを上回っていることが示されています。...
$
7.15
/ M UTF-8 bytes
Input:
$
text
/ M UTF-8 bytes

Black Forest Labs
Text-to-Image
FLUX.1-dev
$
0.014
/ Image
Input:
$
text
/ Image


Black Forest Labs
Text-to-Image
FLUX.1-schnell
$
0.0014
/ Image
Input:
$
text
/ Image

Fish Audio
Text-to-Speech
Fish-Speech-1.5
Fish Speech V1.5 は、オープンソースのテキストトゥスピーチ (TTS) Model の中で最も先進的なものです。このModelは革新的なDualARアーキテクチャを採用しており、二重自己回帰型トランスフォーマーデザインを特徴としています。複数の言語をサポートしており、英語と中国語には30万時間以上、日本語には10万時間以上のトレーニングデータを提供しています。TTS Arenaによる独立評価では、Modelは非常に優れた性能を発揮し、ELOスコアは1339を獲得しました。英語においては単語誤り率 (WER) が 3.5%、文字誤り率 (CER) が 1.2% を達成し、中国語の文字においては 1.3% のCERを達成しました。...
$
15
/ M UTF-8 bytes
Input:
$
text
/ M UTF-8 bytes

FunAudioLLM
Text-to-Speech
FunAudioLLM/CosyVoice2-0.5B
CosyVoice 2は、大規模言語モデルに基づくストリーミング音声合成モデルであり、統一されたストリーミング/非ストリーミングフレームワーク設計を採用しています。このModelは、有限スカラー量子化(FSQ)を通じて音声tokenコードブックの利用を強化し、Text-to-speech言語Modelアーキテクチャを簡素化し、異なる合成シナリオをサポートするチャンク対応の因果的ストリーミングマッチングModelを開発します。ストリーミングモードでは、Modelは150msの超低遅延で、非ストリーミングモードとほぼ同じ合成品質を維持しています。バージョン1.0と比較して、発音エラー率が30%-50%削減され、MOSスコアが5.4から5.53に向上し、感情と方言に対する細かい制御がサポートされています。Modelは、中国語(方言を含む:広東語、四川方言、上海語、天津方言など)、英語、日本語、韓国語をサポートし、クロスリンガルおよび混合言語のシナリオをサポートしています。...
$
7.15
/ M UTF-8 bytes
Input:
$
text
/ M UTF-8 bytes

