
Moonshot AI
Text Generation
Kimi-K2.5
リリース日:2026/01/30
Kimi K2.5は、Kimi-K2-Baseの上に約15兆の混合視覚およびText tokensで継続的に事前学習されたオープンソースのネイティブMultimodalなエージェントモデルです。1TパラメータMoEアーキテクチャ(32Bアクティブ)と256Kコンテキスト長を備え、Visionと言語の理解を高度なエージェント機能とシームレスに統合し、即時モードと思考モード、そして会話およびエージェントのパラダイムをサポートします。...
Total Context:
262K
Max output:
262K
Input:
$
0.55
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
リリース日:2025/12/08
GLM-4.6Vは、同じパラメータスケールのモデルにおいて、視覚理解の分野でSOTA(最先端)の精度を達成しました。初めて、視覚モデルのアーキテクチャにFunction Call機能をネイティブに統合し、「視覚的認識」と「実行可能な行動」の間のギャップを橋渡しします。これにより、現実のビジネスシナリオにおけるMultimodal Agentの統一技術基盤が提供されます。さらに、視覚コンテキストウィンドウが128kに拡張され、長いVideoストリーム処理と高解像度のマルチImage分析をサポートします。...
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Output:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
リリース日:2025/10/21
Qwen3-VLは、Qwen3シリーズのVision-Languageモデルであり、さまざまなVision-Language(VL)ベンチマークで最先端(SOTA)のパフォーマンスを達成しています。このModelは、メガピクセルレベルまでの高解像度Image入力をサポートし、一般的な視覚理解、多言語OCR、細かな視覚的グラウンディング、視覚的対話における強力な機能を備えています。Qwen3シリーズの一部として、強力な言語基盤を継承しており、複雑な指示を理解し実行することができます。...
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
リリース日:2025/10/21
Qwen3-VL-Thinkingは、複雑な視覚的推論タスクのために特別に最適化されたQwen3-VLシリーズのバージョンです。これは"Thinking Mode"を取り入れており、最終的な答えを出す前に詳細な中間推論ステップ(Chain-of-Thought)を生成できます。この設計は、マルチステップの論理、計画、および詳細な分析を必要とする視覚質問応答(VQA)やその他のビジョン-言語タスクにおいて、モデルのパフォーマンスを大幅に向上させます。...
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
リリース日:2025/10/15
Qwen3-VL-8B-InstructはQwen3シリーズのVision-Imageモデルであり、一般的な視覚理解、視覚中心の対話、画像における多言語Text認識において強力な能力を示しています。...
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Thinking
リリース日:2025/10/15
Qwen3-VL-8B-ThinkingはQwen3シリーズのVision-言語Modelであり、複雑な推論が必要なシナリオに最適化されています。このThinkingモードでは、Modelは最終的な答えを提供する前に順を追って考え、推論を行います。...
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Output:
$
2.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
リリース日:2025/10/04
Qwen3-VL-235B-A22B-Instructは235Bパラメータを持つ専門家の集合(MoE)Vision-language Modelで、22Bのアクティブパラメータがあります。これはQwen3-VL-235B-A22Bの指示調整されたバージョンで、Chatアプリケーションに合わせられています。...
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
リリース日:2025/10/04
Qwen3-VL-235B-A22B-Thinking は Qwen3-VL シリーズのモデルの一つで、最先端の結果を達成する推論強化版の Thinking エディションです。これは、多くのマルチモーダル推論ベンチマークで優れた成果を挙げており、STEM、数学、因果分析、論理的かつ証拠に基づいた回答に秀でています。全パラメータが235Bで、アクティブパラメータが22Bの合計パラメータを持つ、ミックスチャーオブエキスパート (MoE) アーキテクチャを備えています。...
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
リリース日:2025/10/05
Qwen3-VLシリーズは、優れたTextの理解と生成、より深い視覚的知覚と推論、拡張されたコンテキスト長、強化された空間およびVideoダイナミクスの理解、より強力なエージェント相互作用の機能を提供します。エッジからクラウドまでスケールするDenseおよびMoEアーキテクチャで利用可能で、指示と推論が強化されたThinkingエディションが含まれています。...
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
リリース日:2025/10/11
Qwen3-VLシリーズは、優れたTextの理解と生成、より深い視覚的知覚と推論、拡張されたコンテキスト長、強化された空間およびVideoダイナミクスの理解、より強力なエージェント相互作用の機能を提供します。エッジからクラウドまでスケールするDenseおよびMoEアーキテクチャで利用可能で、指示と推論が強化されたThinkingエディションが含まれています。...
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Output:
$
1.0
/ M Tokens

Z.ai
Text Generation
GLM-4.5V
リリース日:2025/08/13
モデルのGLM-Vファミリーの一部として、GLM-4.5VはZhipuAIの基盤モデルGLM-4.5-Airに基づいており、画像、ビデオ、文書理解、GUIエージェント操作などのタスクでSOTA性能を達成しています。...
Total Context:
66K
Max output:
66K
Input:
$
0.14
/ M Tokens
Output:
$
0.86
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Captioner
リリース日:2025/10/04
Qwen3-Omni-30B-A3B-Captionerは、AlibabaのQwenチームからのVision-Language Model (VLM)で、Qwen3シリーズの一部です。これは、高品質で詳細かつ正確なImageキャプションを生成するために特別に設計されています。30Bの総パラメータエキスパートの組み合わせ(MoE)アーキテクチャに基づいており、ModelはImageの内容を深く理解し、それを豊かで自然な言語Textに翻訳することができます。...
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Instruct
リリース日:2025/10/04
Qwen3-Omni-30B-A3B-Instructは、AlibabaのQwenチームの最新のQwen3シリーズのメンバーです。それは30億の総パラメータと3億のアクティブパラメータを持つ専門家のミックス (MoE) Modelであり、強力なパフォーマンスを維持しつつInferenceコストを効果的に削減します。このModelは、高品質で多元的かつ多言語のデータでトレーニングされており、多言語対話のような基本的な能力だけでなく、コードや数学においても優れた性能を発揮しています。...
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

Qwen
Text Generation
Qwen3-Omni-30B-A3B-Thinking
リリース日:2025/10/04
Qwen3-Omni-30B-A3B-Thinkingは、Qwen3-Omni omni-modal Modelの「Thinker-Talker」アーキテクチャ内のコア「Thinker」コンポーネントです。それは、Text、Audio、Images、そしてVideoを含むMultimodal Inputを処理して、複雑な思考の連鎖を実行するように具体的に設計されています。このModelはシステムの推論脳として、すべてのInputを理解と分析のための共通の表象空間に統一しますが、そのOutputはTextのみです。この設計により、画像で提示された数学的問題のような深い思考とクロスモーダルな理解を必要とする複雑な問題を解決する際に優れた能力を発揮し、Qwen3-Omniアーキテクチャ全体の強力な認知能力の鍵となっています。...
Total Context:
66K
Max output:
66K
Input:
$
0.1
/ M Tokens
Output:
$
0.4
/ M Tokens

StepFun
Text Generation
step3
リリース日:2025/08/06
ステップ3は、StepFunの最先端のマルチモーダル推論Modelです。これは、321Bの総パラメータと38Bのアクティブパラメータを持つMixture-of-Experts (MoE) アーキテクチャ上に構築されています。このModelは、Vision-Language推論においてトップクラスのパフォーマンスを提供しながらデコードコストを最小限に抑えるために、エンドツーエンドで設計されています。Multi-Matrix Factorization Attention (MFA) と Attention-FFN Disaggregation (AFD) の共同設計により、ステップ3はフラグシップおよび低エンドのアクセラレータの両方において卓越した効率を維持しています。プレトレーニング中に、ステップ3は20TのText tokenと4TのImage-Text混合tokenを処理し、10以上の言語にまたがりました。このModelは、オープンソースModelとして、数学、コード、マルチモダリティを含む様々なベンチマークにおいて最先端のパフォーマンスを達成しました。...
Total Context:
66K
Max output:
66K
Input:
$
0.57
/ M Tokens
Output:
$
1.42
/ M Tokens

Z.ai
Text Generation
GLM-4.1V-9B-Thinking
リリース日:2025/07/04
GLM-4.1V-9B-Thinkingは、Zhipu AIと清華大学のKEG研究所が共同で発表したオープンソースのVision-Language Model(VLM)であり、一般目的のマルチモーダルな推論を進化させるよう設計されています。GLM-4-9B-0414の基礎モデルを基に構築されたこのモデルは、「思考のパラダイム」を導入し、カリキュラムサンプリングを用いた強化学習(RLCS)を活用して、複雑なタスクにおける能力を大幅に向上させています。9Bパラメータモデルとして、同等のサイズのモデルの中で最先端のパフォーマンスを達成し、18の異なるベンチマークで、はるかに大きな72BパラメータのQwen-2.5-VL-72Bと比較して同等かそれ以上の性能を発揮します。このモデルは、STEMの問題解決、Videoの理解、長文の理解を含む多様なタスクに優れ、最大4Kの解像度と任意のアスペクト比のImageを処理できます。...
Total Context:
66K
Max output:
66K
Input:
$
0.035
/ M Tokens
Output:
$
0.14
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
リリース日:2025/03/24
Qwen2.5-VL-32B-Instructは、QwenチームによってリリースされたMultimodal大型言語Modelで、Qwen2.5-VLシリーズの一部です。このModelは一般的なオブジェクトを認識するだけでなく、Images内のText、チャート、アイコン、グラフィック、レイアウトを分析する能力に優れています。視覚エージェントとして、論理的に推論し、コンピュータや携帯電話を使用するためのツールを動的に指示することができます。さらに、このModelはImages内のオブジェクトを正確にローカライズし、請求書やテーブルなどのデータに対して構造化されたOutputsを生成することが可能です。前任のQwen2-VLと比較して、このバージョンは強化学習による数学的および問題解決能力が向上しており、応答のスタイルが人間の嗜好により良く合うように調整されています。...
Total Context:
131K
Max output:
131K
Input:
$
0.27
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
リリース日:2025/01/28
Qwen2.5-VLはQwen2.5シリーズのビジョン-言語モデルであり、いくつかの側面で大きな向上を示しています。それは共通のオブジェクトを認識しながらテキスト、チャート、およびレイアウトを分析する強力な視覚理解能力を備えており、推論し、動的にツールを指示できる視覚エージェントとして機能します。また、1時間以上のビデオを理解し、重要なイベントをキャプチャすることができます。さらに、画像の中のオブジェクトを正確に特定し、バウンディングボックスやポイントを生成して局在化します。請求書やフォームのようなスキャンデータのための構造化された出力をサポートしており、Image、Video、およびエージェントタスクを含むさまざまなベンチマークで優れたパフォーマンスを示します。...
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Output:
$
0.59
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-7B-Instruct
リリース日:2025/01/28
Qwen2.5-VLはQwenシリーズの新しいメンバーであり、強力な視覚理解能力を備えています。画像内のText、チャート、レイアウトを分析し、長いVideoを理解してイベントをキャプチャすることができます。推論、ツールの操作、マルチフォーマットオブジェクトの位置特定、構造化されたOutputの生成が可能です。ModelはVideo理解における動的解像度とフレームレートトレーニングに向けて最適化されており、視覚エンコーダーの効率が向上しました。...
Total Context:
33K
Max output:
4K
Input:
$
0.05
/ M Tokens
Output:
$
0.05
/ M Tokens
DeepSeek
Text Generation
deepseek-vl2
リリース日:2024/12/13
DeepSeek-VL2は、DeepSeekMoE-27Bに基づいて開発された混合専門家(MoE)ビジョン-言語モデルであり、疎活性化MoEアーキテクチャを採用して4.5Bの活性パラメータのみで優れたパフォーマンスを達成します。 このModelは、視覚的質問応答、光学文字認識、文書/テーブル/チャート理解、視覚的グラウンディングなど、さまざまなタスクで優れています。 既存のオープンソースの密結合モデルおよびMoEベースのモデルと比較して、同等または最先端のパフォーマンスを同じまたは少ない活性パラメータで示します。...
Total Context:
4K
Max output:
4K
Input:
$
0.15
/ M Tokens
Output:
$
0.15
/ M Tokens

