GLM-4.5V: Ведущая в мире модель рассуждения Vision с открытым исходным кодом теперь на SiliconFlow

15 авг. 2025 г.

Содержание

Сегодня мы рады представить, что GLM-4.5V — лучшая в мире модель рассуждений по зрению с открытым исходным кодом масштаба 100B — теперь доступна на SiliconFlow. Основанная на флагманской текстовой базовой модели Z.ai GLM-4.5-Air, GLM-4.5V предназначена для повышения сложного решения задач, понимания контекста на длинные расстояния и многомодальных агентов. Следуя техническому подходу GLM-4.1V-Thinking, она также делает акцент на развитии многомодальных рассуждений и практических приложений в реальном мире.

Будь то точная интерпретация изображений и видео, извлечение инсайтов из сложных документов или автономное взаимодействие с графическими пользовательскими интерфейсами через интеллектуальных агентов, GLM-4.5V обеспечивает надежную производительность.

С помощью API GLM-4.5V от SiliconFlow вы можете ожидать:

Экономически эффективное ценообразование: GLM-4.5V $0.14/M токенов (Input) и $0.86/M токенов (Output).
Длина контекста: 66K-token Multimodal контекстное окно.
Поддержка на родном языке: Использование инструментов и Image Input.

Ключевые возможности и производительность в испытаниях

Благодаря эффективной гибридной тренировке, она может справляться с разнообразными типами визуального контента, обеспечивая комплексное рассуждение по зрению, включая:

Reasoning Image: Понимание сцены, сложный анализ множества изображений, пространственное распознавание.
Понимание Video: Сегментация длинных видео и распознавание событий.
Задачи GUI: Чтение экрана, распознавание значков, помощь в операциях на рабочем столе.
Анализ сложных графиков и длинных документов: Анализ исследовательских отчетов, извлечение информации.
Привязка: Точная локализация визуальных элементов.

Модель также вводит переключатель режима Thinking, позволяя пользователям балансировать между быстрыми ответами и глубокими рассуждениями.

Демонстрируя свои сильные возможности, GLM-4.5V достигает передовых результатов (SOTA) среди моделей того же масштаба на 42 публичных испытаниях vision-language, подтверждая свое ведущие положение в этой области.

Технические особенности

Эта модель оснащена усовершенствованными возможностями обработки длинного многомодального контекста с использованием множества технических инноваций для улучшения производительности обработки изображений и видео:

Процессинг многомодального контекста на 66 тысяч: Поддерживает как Image, так и Video Input и использует 3D-свертку для повышения эффективности обработки видео.
Механизм бикубической интерполяции: Улучшает устойчивость и возможности обработки изображений с высоким разрешением и экстремальным соотношением сторон.
3D-Поворотное позиционное кодирование (3D-RoPE): Усиливает восприятие и рассуждения модели о трехмерных пространственных отношениях в мультимодальной информации.

GLM-4.5V также следует трехэтапной стратегии обучения: предварительная подготовка, контролируемая донастройка (SFT) и обучение с подкреплением (RL):

Этап предварительной подготовки: Крупномасштабные перемешанные многомодальные корпуса и данные длинного контекста используются для улучшения способности модели обрабатывать сложные контенты Image–Text и Video.
Этап SFT: Явные обучающие образцы формата цепочки мыслей вводятся для улучшения причинных рассуждений GLM-4.5V и возможностей многомодального понимания.
Этап RL: Многодоменное многомодальное обучение с подкреплением применяется путем создания многодоменной системы вознаграждений, которая сочетает в себе проверяемое обучение с подкреплением на основе вознаграждений (RLVR) и обучение с подкреплением обратной связью от человека (RLHF), обеспечивая комплексную оптимизацию в задачах STEM, многомодальной локализации и агентских задачах.

Производительность в реальном мире на SiliconFlow

При получении страницы электронной коммерции, отображающей несколько продуктов, GLM-4.5V может идентифицировать как скидочные, так и оригинальные цены на изображении, а затем точно рассчитать ставки скидок.

Отзывы разработчиков о GLM-4.5V от нашего сообщества были очень положительными.

Теперь присоединяйтесь к сообществу, чтобы исследовать больше вариантов использования, делиться своими результатами и получать поддержку из первых рук!

Начните немедленно

Исследуйте: Попробуйте GLM-4.5V в Playground SiliconFlow.
Интеграция: Используйте наш API, совместимый с OpenAI. Изучите полные спецификации API в документации SiliconFlow API.

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

import requests

url = "https://api.siliconflow.com/v1/chat/completions"

payload = {
    "model": "zai-org/GLM-4.5V",
    "max_tokens": 512,
    "enable_thinking": True,
    "thinking_budget": 4096,
    "min_p": 0.05,
    "temperature": 0.7,
    "top_p": 0.7,
    "top_k": 50,
    "frequency_penalty": 0.5,
    "n": 1,
    "messages": [
        {
            "content": "how are you",
            "role": "user"
        }
    ]
}
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())