最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

最先端

AI Model ライブラリ

1つのAPIで200以上の最先端AIモデルでInferenceを実行し、数秒でデプロイ

Moonshot AI

Text Generation

Kimi-K2.5

Kimi K2.5は、Kimi-K2-Baseの上に約15兆の混合視覚およびText tokensで継続的に事前学習されたオープンソースのネイティブMultimodalなエージェントモデルです。1TパラメータMoEアーキテクチャ(32Bアクティブ)と256Kコンテキスト長を備え、Visionと言語の理解を高度なエージェント機能とシームレスに統合し、即時モードと思考モード、そして会話およびエージェントのパラダイムをサポートします。...

Total Context:

262K

Max output:

262K

Input:

$

0.23

/ M Tokens

Output:

$

3.0

/ M Tokens

Z.ai

Text Generation

GLM-4.6V

GLM-4.6Vは、同じパラメータスケールのモデルにおいて、視覚理解の分野でSOTA(最先端)の精度を達成しました。初めて、視覚モデルのアーキテクチャにFunction Call機能をネイティブに統合し、「視覚的認識」と「実行可能な行動」の間のギャップを橋渡しします。これにより、現実のビジネスシナリオにおけるMultimodal Agentの統一技術基盤が提供されます。さらに、視覚コンテキストウィンドウが128kに拡張され、長いVideoストリーム処理と高解像度のマルチImage分析をサポートします。...

Total Context:

131K

Max output:

131K

Input:

$

0.3

/ M Tokens

Output:

$

0.9

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Instruct

Qwen3-VLは、Qwen3シリーズのVision-Languageモデルであり、さまざまなVision-Language(VL)ベンチマークで最先端(SOTA)のパフォーマンスを達成しています。このModelは、メガピクセルレベルまでの高解像度Image入力をサポートし、一般的な視覚理解、多言語OCR、細かな視覚的グラウンディング、視覚的対話における強力な機能を備えています。Qwen3シリーズの一部として、強力な言語基盤を継承しており、複雑な指示を理解し実行することができます。...

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

0.6

/ M Tokens

Qwen

Text Generation

Qwen3-VL-32B-Thinking

Qwen3-VL-Thinkingは、複雑な視覚的推論タスクのために特別に最適化されたQwen3-VLシリーズのバージョンです。これは"Thinking Mode"を取り入れており、最終的な答えを出す前に詳細な中間推論ステップ(Chain-of-Thought)を生成できます。この設計は、マルチステップの論理、計画、および詳細な分析を必要とする視覚質問応答(VQA)やその他のビジョン-言語タスクにおいて、モデルのパフォーマンスを大幅に向上させます。...

Total Context:

262K

Max output:

262K

Input:

$

0.2

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-8B-Instruct

Qwen3-VL-8B-InstructはQwen3シリーズのVision-Imageモデルであり、一般的な視覚理解、視覚中心の対話、画像における多言語Text認識において強力な能力を示しています。...

Total Context:

262K

Max output:

262K

Input:

$

0.18

/ M Tokens

Output:

$

0.68

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Instruct

Qwen3-VL-235B-A22B-Instructは235Bパラメータを持つ専門家の集合(MoE)Vision-language Modelで、22Bのアクティブパラメータがあります。これはQwen3-VL-235B-A22Bの指示調整されたバージョンで、Chatアプリケーションに合わせられています。...

Total Context:

262K

Max output:

262K

Input:

$

0.3

/ M Tokens

Output:

$

1.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-235B-A22B-Thinking

Qwen3-VL-235B-A22B-Thinking は Qwen3-VL シリーズのモデルの一つで、最先端の結果を達成する推論強化版の Thinking エディションです。これは、多くのマルチモーダル推論ベンチマークで優れた成果を挙げており、STEM、数学、因果分析、論理的かつ証拠に基づいた回答に秀でています。全パラメータが235Bで、アクティブパラメータが22Bの合計パラメータを持つ、ミックスチャーオブエキスパート (MoE) アーキテクチャを備えています。...

Total Context:

262K

Max output:

262K

Input:

$

0.45

/ M Tokens

Output:

$

3.5

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Instruct

Qwen3-VLシリーズは、優れたTextの理解と生成、より深い視覚的知覚と推論、拡張されたコンテキスト長、強化された空間およびVideoダイナミクスの理解、より強力なエージェント相互作用の機能を提供します。エッジからクラウドまでスケールするDenseおよびMoEアーキテクチャで利用可能で、指示と推論が強化されたThinkingエディションが含まれています。...

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen3-VL-30B-A3B-Thinking

Qwen3-VLシリーズは、優れたTextの理解と生成、より深い視覚的知覚と推論、拡張されたコンテキスト長、強化された空間およびVideoダイナミクスの理解、より強力なエージェント相互作用の機能を提供します。エッジからクラウドまでスケールするDenseおよびMoEアーキテクチャで利用可能で、指示と推論が強化されたThinkingエディションが含まれています。...

Total Context:

262K

Max output:

262K

Input:

$

0.29

/ M Tokens

Output:

$

1

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-32B-Instruct

Qwen2.5-VL-32B-Instructは、QwenチームによってリリースされたMultimodal大型言語Modelで、Qwen2.5-VLシリーズの一部です。このModelは一般的なオブジェクトを認識するだけでなく、Images内のText、チャート、アイコン、グラフィック、レイアウトを分析する能力に優れています。視覚エージェントとして、論理的に推論し、コンピュータや携帯電話を使用するためのツールを動的に指示することができます。さらに、このModelはImages内のオブジェクトを正確にローカライズし、請求書やテーブルなどのデータに対して構造化されたOutputsを生成することが可能です。前任のQwen2-VLと比較して、このバージョンは強化学習による数学的および問題解決能力が向上しており、応答のスタイルが人間の嗜好により良く合うように調整されています。...

Total Context:

131K

Max output:

131K

Input:

$

0.27

/ M Tokens

Output:

$

0.27

/ M Tokens

Qwen

Text Generation

Qwen2.5-VL-72B-Instruct

Qwen2.5-VLはQwen2.5シリーズのビジョン-言語モデルであり、いくつかの側面で大きな向上を示しています。それは共通のオブジェクトを認識しながらテキスト、チャート、およびレイアウトを分析する強力な視覚理解能力を備えており、推論し、動的にツールを指示できる視覚エージェントとして機能します。また、1時間以上のビデオを理解し、重要なイベントをキャプチャすることができます。さらに、画像の中のオブジェクトを正確に特定し、バウンディングボックスやポイントを生成して局在化します。請求書やフォームのようなスキャンデータのための構造化された出力をサポートしており、Image、Video、およびエージェントタスクを含むさまざまなベンチマークで優れたパフォーマンスを示します。...

Total Context:

131K

Max output:

4K

Input:

$

0.59

/ M Tokens

Output:

$

0.59

/ M Tokens

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow