GLM-4.5V: 世界をリードするオープンソースのVision推論モデル、今やSiliconFlow上で利用可能

2025/08/15

今日、私たちは GLM-4.5V — 世界最高性能のオープンソース100Bスケールビジョン推論モデル — がSiliconFlowで利用可能になったことを発表します。Z.aiの旗艦 GLM-4.5-Air テキスト基盤モデルに基づいて構築されたGLM-4.5Vは、複雑な問題解決、長い文脈の理解、マルチモーダルエージェントを強化するように設計されています。GLM-4.1V-Thinkingの技術的アプローチに従い、マルチモーダル推論および実際の応用を進めることをも重視しています。

画像や動画を正確に解釈し、複雑なドキュメントから洞察を抽出し、またはインテリジェントエージェントを通じてグラフィカルユーザインターフェースと自律的に対話するか、GLM-4.5Vは強力な性能を発揮します。

SiliconFlowのGLM-4.5V APIにより、以下が期待できます:

コスト効率の良い価格: GLM-4.5V $0.14/M tokens (Input) と $0.86/M tokens (Output)。
コンテキスト長: 66K-token マルチモーダルコンテキストウィンドウ。
ネイティブサポート: ツール使用とImage Input。

主要機能 & ベンチマークパフォーマンス

効率的なハイブリッドトレーニングを通じて、多様な種類のビジュアルコンテンツを処理でき、包括的なビジョン推論を可能にします。これには次が含まれます:

Image Reasoning: シーンの理解、複雑な複数画像分析、空間認識。
Video Understanding: 長い動画のセグメンテーションとイベント認識。
GUIタスク: 画面の読み取り、アイコン認識、デスクトップ操作支援。
複雑なチャート & 長文ドキュメントの解析: 調査報告書の分析、情報抽出。
グラウンディング: 正確な視覚要素の位置特定。

このModelはまた、Thinkingモードの切り替えを導入し、迅速な応答と深い推論のバランスを取ります。

その強力な能力を示し、GLM-4.5Vは同スケールモデルの中で最先端の (SOTA) パフォーマンスを達成42の公開ビジョン-言語ベンチマークにおいて確認し、この分野でのリーダー的地位を確立しています。

技術的ハイライト

このModelは高度なマルチモーダル長文コンテキスト処理能力を備えており、画像とビデオ処理性能を高めるためにいくつかの技術革新があります:

66Kマルチモーダル長文コンテキスト処理: 画像およびビデオの入力をサポートし、ビデオ処理効率を高めるために3D畳み込みを活用しています。
バイキュービック補間メカニズム: 高解像度および極端なアスペクト比画像の処理でのロバスト性と能力を向上します。
3D回転位置エンコーディング (3D-RoPE): マルチモーダル情報における三次元の空間関係の認識と推論を強化します。

GLM-4.5Vはまた、3段階のトレーニング戦略に従います: プリトレーニング、教師付き微調整 (SFT) および 強化学習 (RL):

プリトレーニングステージ: 大規模なインタリーブされたマルチモーダルコーパスと長文データを使用して、複雑なImage–Textとビデオコンテンツを処理するためのModelの能力を強化します。
SFTステージ:

明示的な<強い>思考連鎖形式のトレーニングサンプルを導入して、GLM-4.5Vの因果推論とマルチモーダルの理解能力を向上させます。

< 明示的な>

RLステージ: マルチドメインマルチモーダルカリキュラム強化学習が、検証可能な報酬ベースの強化学習 (RLVR) と 人間のフィードバックからの強化学習 (RLHF)を組み合わせたマルチドメイン報酬システムを構築して適用され、STEM問題、マルチモーダルローカライゼーションおよびエージェンティックタスクにおいて包括的な最適化を可能にします。

SiliconFlowでの実世界のパフォーマンス

複数の商品を表示するeコマースページが提供されたとき、GLM-4.5Vは画像内の割引価格と元の価格の両方を識別し、その後、割引率を正確に計算します。

私たちのコミュニティからのGLM-4.5Vに関する開発者からのフィードバックは非常にポジティブです。

今、コミュニティに参加して、さらに多くのユースケースを探求し、あなたの結果を共有し、直接サポートを受け取りましょう！

すぐに始める

探求する: SiliconFlow Playgroundで GLM-4.5V を試してみてください。
統合する: OpenAI互換APIを使用します。 SiliconFlow APIドキュメントで完全なAPI仕様を探索してください。

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())