GLM-4.5はSiliconFlowで利用可能に: 推論、コード、およびエージェント型アプリケーション用のオープンソースのSOTAモデル

2025/07/28

目次

GLM-4.5がSiliconFlowで利用可能になりました
GLM-4.5がSiliconFlowで利用可能になりました

今日、最新のGLM-4.5およびGLM-4.5-Air、Z.ai の最新フラッグシップモデルシリーズをSiliconFlowプラットフォームに統合することに興奮しています。この画期的なモデルシリーズは、単一のモデルで推論、コーディング、エージェント能力をネイティブに統合し、急速に発展するエージェントアプリケーションのますます複雑な要件を満たすために、AGI開発における重要なマイルストーンを表しています。

フルスタック開発プロジェクト、洗練されたコードリファクタリング、または自律エージェントシステムの構築に取り組んでいる場合でも、GLM-4.5はインテリジェントなエージェントアプリケーションが求める高度な機能と信頼性を提供します。私たちのモデルカタログにこの強力な追加は、インテリジェントオートメーションと複雑な問題解決シナリオの限界を押し広げるための開発者を力強くしています。

SiliconFlowのGLM-4.5 APIで期待できることは以下の通りです:

  • コスト効率の良い価格設定: GLM-4.5 $0.5/M tokens (Input) と $2/M tokens (Output); GLM-4.5-Air $0.14/M tokens (Input) と $0.86/M tokens (Output)。

  • 拡張されたコンテキストウィンドウ: 複雑なタスクのための128Kコンテキストウィンドウ。

主な機能とベンチマークパフォーマンス

SiliconFlowで利用可能となったGLM-4.5モデルシリーズには、次の主要な機能が含まれています:

  • SOTAパフォーマンス: 推論、コード生成、エージェント能力において、オープンソースモデルの中で最先端の結果を提供し、実世界のコードエージェント評価で業界をリードするパフォーマンスを発揮します。

  • MoEアーキテクチャ: GLM-4.5は355B全体/32Bアクティブなパラメータを持ち、GLM-4.5-Airは106B全体/12Bアクティブなパラメータのコンパクトなデザインを採用しています。両者は効率を最適化するためにMixture of Expertsデザインを活用しています。

  • ハイブリッド推論: 両者は複雑なタスクのための思考モードと即時応答のための非思考モードを提供します。

GLM-4.5の一般能力を包括的に評価するために、Z.aiは3つのコアドメインにわたる12の代表的なベンチマークを選びました: 推論 (MMLU Pro, AIME 24, MATH 500)、コーディング (SciCode, GPQA, HLE, LiveCodeBench, SWE-Bench Verified)、およびエージェント能力 (Terminal-Bench, TAU-Bench, BFCL v3, BrowseComp)。

これらの包括的な指標にわたって、GLM-4.5は優れたパフォーマンスを示しています:

  • グローバルランキング: 12の包括的ベンチマークで全モデルの中で世界で3位にランクインし、リーダーのGrok-4 (63.6)に次ぐ63.2を獲得し、Claude 4 Opus (60.9)を超えています

  • オープンソースのチャンピオン: オープンソースカテゴリーでのトップパフォーマンスモデル。

  • 技術的ドメイン: 数学的推論、科学的問題解決、コード生成、エージェントワークフロー、および複雑なタスク実行における卓越性を示しています。

GLM-4.5が非常に強力である理由

高度なトレーニングパイプライン

Z.aiは洗練された3段階のプロセスを使用してGLM-4.5を開発しました:

  • 事前トレーニング: 基礎的な能力のための汎用データの150兆token。

  • ドメイン特化のトレーニング: コード、推論、およびエージェントタスクに焦点を当てた80兆token。

  • 強化学習: 推論、コーディング、およびエージェントワークフロー全体でのパフォーマンスの向上。

優れたパラメータ効率

パレート前線分析により、GLM-4.5は卓越した効率を示しています:

  • 最適なスケーリング: 同等のスケールのモデルと比べて優れたパフォーマンスを発揮します。

  • 効率のリーダーシップ: パフォーマンスとスケールのトレードオフ境界で最適な効率を達成します。

  • リソースの優位性: DeepSeek-R1のパラメータの半分、Kimi-K2の3分の1。

  • コストの利点: 高いパラメータ効率はより速い推論と低い運用コストに繋がります。

実際のパフォーマンス

ベンチマーク評価を超えて、GLM-4.5の実際の能力は現実世界でのコーディングシナリオで厳密にテストされています:

エージェントコード評価

GLM-4.5のエージェントコーディング能力の独立評価は、Claude Codeを使用してフロントエンド開発、ツール作成、データ分析、テスト、アルゴリズム実装を含む52の多様なコーディングタスクで実施されました。

競争結果:

  • VS Kimi K2: 直接対決で53.9%の勝率。

  • VS Qwen3-Coder: 80.8%の成功率を示し、明確な優位性を証明しています。

  • VS Claude-4-Sonnet: 競争力のあるパフォーマンス。ただし、さらなる最適化も可能です。

  • ツール呼び出しの精度: 90.6%の成功率で先行し、Claude-4-Sonnet (89.5%)、Kimi-K2 (86.2%)、およびQwen3-Coder (77.1%)を凌駕しています。

リアルアプリケーションのシナリオ

GLM-4.5の能力は、実用的な開発シナリオにまで及び、複数のドメインにわたる実世界の実装を通じて多様性を示します。

インタラクティブなアーティファクトの作成

GLM-4.5は、インタラクティブなミニゲームから物理シミュレーションまで、HTML、SVG、Pythonおよび他のフォーマットを使用して高度な独立したアーティファクトを作成し、高度なエージェントコーディングアプリケーションのために優れたユーザーエクスペリエンスを提供します。

スライドの作成

GLM-4.5の強力なエージェントツールの使用およびHTMLコーディング能力を活用して、モデルネイティブのPPT/ポスターエージェントは、ウェブを自動的に検索し、イメージを取得し、単純なリクエストやアップロードされたドキュメントからスライドを作成します。

フルスタックウェブ開発

GLM-4.5は、現代のウェブアプリケーションのためのフロントエンドとバックエンド開発の両方に優れています。ユーザーはわずかな入力で全体のウェブサイトを作成し、マルチターンの対話を通じて機能を追加して、コーディングプロセスをスムーズかつ楽しいものにします。

これらの実世界のシナリオは、プロフェッショナル開発ワークフローにおけるGLM-4.5の実用性を示しており、急速なプロトタイピングから完全なアプリケーションの提供に至るまで役立ちます。

すぐに始める

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5",
    "messages": [
        {
            "role": "user",
            "content": "Tell me a story"
        }
    ],
    "top_p": 0.95,
    "temperature": 0.6
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

今日、SiliconFlowでGLM-4.5とGLM-4.5-Air APIを使用して構築してください!

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow

Japanese

© 2025 SiliconFlow