約GLM-4.6V

GLM-4.6Vは、同じパラメータスケールのモデルにおいて、視覚理解の分野でSOTA(最先端)の精度を達成しました。初めて、視覚モデルのアーキテクチャにFunction Call機能をネイティブに統合し、「視覚的認識」と「実行可能な行動」の間のギャップを橋渡しします。これにより、現実のビジネスシナリオにおけるMultimodal Agentの統一技術基盤が提供されます。さらに、視覚コンテキストウィンドウが128kに拡張され、長いVideoストリーム処理と高解像度のマルチImage分析をサポートします。

GLM-4.6V の高度な視覚理解と関数呼び出し機能がどのように複雑な現実世界の問題を解決できるかを探ります。

視覚的科学データ分析

複雑な科学的 Image、チャート、Video ストリームを解釈して洞察を得て、実験を検証し、視覚的な要約を生成します。

ユースケースの例:

"細胞分裂の顕微鏡 Video を分析し、異常を特定し、時系列チャートを生成し、細胞動態の研究を加速させました。"

UI/UX コード生成と編集

デザインモックアップまたはスクリーンショットからピクセル精度のHTML/CSSを生成し、自然言語コマンドを使用してUIを洗練し編集します。

ユースケースの例:

"Figmaのスクリーンショットから複雑なダッシュボードUIをクリーンなReactコンポーネントに再現し、Textコマンドでボタンのスタイルを調整し、フロントエンド開発の時間を節約しました。"

Multimodal 金融インテリジェンス

多様な金融ドキュメント — スキャンされたレポート、市場チャート、Video ブリーフィング — を処理してトレンドを特定し、リスクを評価し、データ取得アクションを実行します。

ユースケースの例:

"企業の年次報告書(チャート付きPDF)を解釈し、関数呼び出しを通じてライブの株価チャートとクロスリファレンスし、投資機会を要約しました。"

エージェント型視覚システム監査

インターフェース、ログ、スキーマティックを視覚的に検査し、脆弱性を特定し、関数呼び出しを通じて自動修正アクションをトリガーすることで複雑なシステムを監査します。

ユースケースの例:

"ネットワークトラフィックグラフとUI要素を視覚的に検査することでwebアプリケーションのセキュリティを監査し、関数呼び出しを使用してWAFの潜在的なXSS脆弱性をフラグ付けしました。"

メタデータ

作成する

ライセンス

MIT

プロバイダー

Z.ai

ハギングフェイス

仕様

Deprecated

建築

Multimodal MoE

キャリブレートされた

はい

専門家の混合

はい

合計パラメータ

106B

アクティブ化されたパラメータ

106B

推論

いいえ

Precision

FP8

コンテキスト長

131K

Max Tokens

131K

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?

AI開発を 加速する準備はできていますか?