GLM-4.5V: Ведущая в мире модель рассуждения Vision с открытым исходным кодом теперь на SiliconFlow
15 авг. 2025 г.
Содержание
Сегодня мы рады представить, что GLM-4.5V — лучшая в мире модель рассуждений по зрению с открытым исходным кодом масштаба 100B — теперь доступна на SiliconFlow. Основанная на флагманской текстовой базовой модели Z.ai GLM-4.5-Air, GLM-4.5V предназначена для повышения сложного решения задач, понимания контекста на длинные расстояния и многомодальных агентов. Следуя техническому подходу GLM-4.1V-Thinking, она также делает акцент на развитии многомодальных рассуждений и практических приложений в реальном мире.
Будь то точная интерпретация изображений и видео, извлечение инсайтов из сложных документов или автономное взаимодействие с графическими пользовательскими интерфейсами через интеллектуальных агентов, GLM-4.5V обеспечивает надежную производительность.
С помощью API GLM-4.5V от SiliconFlow вы можете ожидать:
Экономически эффективное ценообразование: GLM-4.5V $0.14/M токенов (Input) и $0.86/M токенов (Output).
Длина контекста: 66K-token Multimodal контекстное окно.
Поддержка на родном языке: Использование инструментов и Image Input.
Ключевые возможности и производительность в испытаниях
Благодаря эффективной гибридной тренировке, она может справляться с разнообразными типами визуального контента, обеспечивая комплексное рассуждение по зрению, включая:
Reasoning Image: Понимание сцены, сложный анализ множества изображений, пространственное распознавание.
Понимание Video: Сегментация длинных видео и распознавание событий.
Задачи GUI: Чтение экрана, распознавание значков, помощь в операциях на рабочем столе.
Анализ сложных графиков и длинных документов: Анализ исследовательских отчетов, извлечение информации.
Привязка: Точная локализация визуальных элементов.
Модель также вводит переключатель режима Thinking, позволяя пользователям балансировать между быстрыми ответами и глубокими рассуждениями.
Демонстрируя свои сильные возможности, GLM-4.5V достигает передовых результатов (SOTA) среди моделей того же масштаба на 42 публичных испытаниях vision-language, подтверждая свое ведущие положение в этой области.

Технические особенности
Эта модель оснащена усовершенствованными возможностями обработки длинного многомодального контекста с использованием множества технических инноваций для улучшения производительности обработки изображений и видео:
Процессинг многомодального контекста на 66 тысяч: Поддерживает как Image, так и Video Input и использует 3D-свертку для повышения эффективности обработки видео.
Механизм бикубической интерполяции: Улучшает устойчивость и возможности обработки изображений с высоким разрешением и экстремальным соотношением сторон.
3D-Поворотное позиционное кодирование (3D-RoPE): Усиливает восприятие и рассуждения модели о трехмерных пространственных отношениях в мультимодальной информации.
GLM-4.5V также следует трехэтапной стратегии обучения: предварительная подготовка, контролируемая донастройка (SFT) и обучение с подкреплением (RL):
Этап предварительной подготовки: Крупномасштабные перемешанные многомодальные корпуса и данные длинного контекста используются для улучшения способности модели обрабатывать сложные контенты Image–Text и Video.
Этап SFT: Явные обучающие образцы формата цепочки мыслей вводятся для улучшения причинных рассуждений GLM-4.5V и возможностей многомодального понимания.
Этап RL: Многодоменное многомодальное обучение с подкреплением применяется путем создания многодоменной системы вознаграждений, которая сочетает в себе проверяемое обучение с подкреплением на основе вознаграждений (RLVR) и обучение с подкреплением обратной связью от человека (RLHF), обеспечивая комплексную оптимизацию в задачах STEM, многомодальной локализации и агентских задачах.

Производительность в реальном мире на SiliconFlow
При получении страницы электронной коммерции, отображающей несколько продуктов, GLM-4.5V может идентифицировать как скидочные, так и оригинальные цены на изображении, а затем точно рассчитать ставки скидок.

Отзывы разработчиков о GLM-4.5V от нашего сообщества были очень положительными.
Теперь присоединяйтесь к сообществу, чтобы исследовать больше вариантов использования, делиться своими результатами и получать поддержку из первых рук!
Начните немедленно
Исследуйте: Попробуйте GLM-4.5V в Playground SiliconFlow.
Интеграция: Используйте наш API, совместимый с OpenAI. Изучите полные спецификации API в документации SiliconFlow API.

