
Moonshot AI
Text Generation
Kimi-K2.6
Kimi K2.6 is an open-source, native multimodal agentic model by Moonshot AI, achieving open-source state-of-the-art on benchmarks including HLE with tools, SWE-Bench Pro, and BrowseComp. Built on a MoE architecture with 1T total parameters and 32B activated, the model supports a 256K-token context window and multimodal inputs (image and video) via its MoonViT vision encoder. K2.6 is optimized for agentic workloads: it sustains 4,000+ tool calls over 12+ hours of continuous execution, scales to 300 parallel sub-agents × 4,000 steps per run to produce 100+ files from a single prompt, and supports both Thinking and Instant inference modes with function calling and multi-turn Preserve Thinking...
Total Context:
262K
Max output:
262K
Input:
$
0.95
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

Z.ai
Text Generation
GLM-5V-Turbo
GLM-5V-Turbo is Zhipu’s latest flagship multimodal foundation model, optimized for multimodal coding and agent capabilities. It supports up to 200K tokens of image, video, and text context, and, when integrated with frameworks such as Claude Code and OpenClaw, can handle complex long-horizon programming and assistant tasks....
Total Context:
205K
Max output:
131K
Input:
$
1.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
4.0
/ M Tokens

Moonshot AI
Text Generation
Kimi-K2.5
Kimi K2.5は、Kimi-K2-Baseの上に約15兆の混合視覚およびText tokensで継続的に事前学習されたオープンソースのネイティブMultimodalなエージェントモデルです。1TパラメータMoEアーキテクチャ(32Bアクティブ)と256Kコンテキスト長を備え、Visionと言語の理解を高度なエージェント機能とシームレスに統合し、即時モードと思考モード、そして会話およびエージェントのパラダイムをサポートします。...
Total Context:
262K
Max output:
262K
Input:
$
0.23
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.0
/ M Tokens

Z.ai
Text Generation
GLM-4.6V
GLM-4.6Vは、同じパラメータスケールのモデルにおいて、視覚理解の分野でSOTA(最先端)の精度を達成しました。初めて、視覚モデルのアーキテクチャにFunction Call機能をネイティブに統合し、「視覚的認識」と「実行可能な行動」の間のギャップを橋渡しします。これにより、現実のビジネスシナリオにおけるMultimodal Agentの統一技術基盤が提供されます。さらに、視覚コンテキストウィンドウが128kに拡張され、長いVideoストリーム処理と高解像度のマルチImage分析をサポートします。...
Total Context:
131K
Max output:
131K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.9
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Instruct
Qwen3-VLは、Qwen3シリーズのVision-Languageモデルであり、さまざまなVision-Language(VL)ベンチマークで最先端(SOTA)のパフォーマンスを達成しています。このModelは、メガピクセルレベルまでの高解像度Image入力をサポートし、一般的な視覚理解、多言語OCR、細かな視覚的グラウンディング、視覚的対話における強力な機能を備えています。Qwen3シリーズの一部として、強力な言語基盤を継承しており、複雑な指示を理解し実行することができます。...
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.6
/ M Tokens

Qwen
Text Generation
Qwen3-VL-32B-Thinking
Qwen3-VL-Thinkingは、複雑な視覚的推論タスクのために特別に最適化されたQwen3-VLシリーズのバージョンです。これは"Thinking Mode"を取り入れており、最終的な答えを出す前に詳細な中間推論ステップ(Chain-of-Thought)を生成できます。この設計は、マルチステップの論理、計画、および詳細な分析を必要とする視覚質問応答(VQA)やその他のビジョン-言語タスクにおいて、モデルのパフォーマンスを大幅に向上させます。...
Total Context:
262K
Max output:
262K
Input:
$
0.2
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-8B-Instruct
Qwen3-VL-8B-InstructはQwen3シリーズのVision-Imageモデルであり、一般的な視覚理解、視覚中心の対話、画像における多言語Text認識において強力な能力を示しています。...
Total Context:
262K
Max output:
262K
Input:
$
0.18
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.68
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Instruct
Qwen3-VL-235B-A22B-Instructは235Bパラメータを持つ専門家の集合(MoE)Vision-language Modelで、22Bのアクティブパラメータがあります。これはQwen3-VL-235B-A22Bの指示調整されたバージョンで、Chatアプリケーションに合わせられています。...
Total Context:
262K
Max output:
262K
Input:
$
0.3
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-235B-A22B-Thinking
Qwen3-VL-235B-A22B-Thinking は Qwen3-VL シリーズのモデルの一つで、最先端の結果を達成する推論強化版の Thinking エディションです。これは、多くのマルチモーダル推論ベンチマークで優れた成果を挙げており、STEM、数学、因果分析、論理的かつ証拠に基づいた回答に秀でています。全パラメータが235Bで、アクティブパラメータが22Bの合計パラメータを持つ、ミックスチャーオブエキスパート (MoE) アーキテクチャを備えています。...
Total Context:
262K
Max output:
262K
Input:
$
0.45
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
3.5
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Instruct
Qwen3-VLシリーズは、優れたTextの理解と生成、より深い視覚的知覚と推論、拡張されたコンテキスト長、強化された空間およびVideoダイナミクスの理解、より強力なエージェント相互作用の機能を提供します。エッジからクラウドまでスケールするDenseおよびMoEアーキテクチャで利用可能で、指示と推論が強化されたThinkingエディションが含まれています。...
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen3-VL-30B-A3B-Thinking
Qwen3-VLシリーズは、優れたTextの理解と生成、より深い視覚的知覚と推論、拡張されたコンテキスト長、強化された空間およびVideoダイナミクスの理解、より強力なエージェント相互作用の機能を提供します。エッジからクラウドまでスケールするDenseおよびMoEアーキテクチャで利用可能で、指示と推論が強化されたThinkingエディションが含まれています。...
Total Context:
262K
Max output:
262K
Input:
$
0.29
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
1
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instructは、QwenチームによってリリースされたMultimodal大型言語Modelで、Qwen2.5-VLシリーズの一部です。このModelは一般的なオブジェクトを認識するだけでなく、Images内のText、チャート、アイコン、グラフィック、レイアウトを分析する能力に優れています。視覚エージェントとして、論理的に推論し、コンピュータや携帯電話を使用するためのツールを動的に指示することができます。さらに、このModelはImages内のオブジェクトを正確にローカライズし、請求書やテーブルなどのデータに対して構造化されたOutputsを生成することが可能です。前任のQwen2-VLと比較して、このバージョンは強化学習による数学的および問題解決能力が向上しており、応答のスタイルが人間の嗜好により良く合うように調整されています。...
Total Context:
131K
Max output:
131K
Input:
$
0.27
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.27
/ M Tokens

Qwen
Text Generation
Qwen2.5-VL-72B-Instruct
Qwen2.5-VLはQwen2.5シリーズのビジョン-言語モデルであり、いくつかの側面で大きな向上を示しています。それは共通のオブジェクトを認識しながらテキスト、チャート、およびレイアウトを分析する強力な視覚理解能力を備えており、推論し、動的にツールを指示できる視覚エージェントとして機能します。また、1時間以上のビデオを理解し、重要なイベントをキャプチャすることができます。さらに、画像の中のオブジェクトを正確に特定し、バウンディングボックスやポイントを生成して局在化します。請求書やフォームのようなスキャンデータのための構造化された出力をサポートしており、Image、Video、およびエージェントタスクを含むさまざまなベンチマークで優れたパフォーマンスを示します。...
Total Context:
131K
Max output:
4K
Input:
$
0.59
/ M Tokens
Input:
$
text
/ M Tokens
Output:
$
0.59
/ M Tokens

