ما هي النماذج متعددة الوسائط مفتوحة المصدر؟
النماذج متعددة الوسائط مفتوحة المصدر هي أنظمة ذكاء اصطناعي متقدمة يمكنها معالجة وفهم أنواع متعددة من البيانات في وقت واحد - بما في ذلك النصوص والصور ومقاطع الفيديو والمستندات. تجمع نماذج الرؤية واللغة (VLMs) هذه بين معالجة اللغة الطبيعية ورؤية الكمبيوتر لأداء مهام استدلال معقدة عبر أنماط مختلفة. إنها تمكن المطورين والباحثين من بناء تطبيقات يمكنها تحليل المحتوى المرئي، وفهم العلاقات المكانية، ومعالجة المستندات الطويلة، والعمل كوكلاء بصريين. تعمل هذه التكنولوجيا على إضفاء الطابع الديمقراطي على الوصول إلى قدرات الذكاء الاصطناعي القوية متعددة الوسائط، مما يعزز الابتكار والتعاون في مجالات تتراوح من البحث العلمي إلى التطبيقات التجارية.
GLM-4.5V
GLM-4.5V هو أحدث جيل من نماذج الرؤية واللغة التي أصدرتها Zhipu AI، مبني على GLM-4.5-Air الرائد بإجمالي 106 مليار معلمة و 12 مليار معلمة نشطة. يستخدم بنية Mixture-of-Experts (MoE) للحصول على أداء فائق بتكلفة استدلال أقل. يقدم النموذج 3D Rotated Positional Encoding (3D-RoPE)، مما يعزز بشكل كبير قدرات الإدراك والاستدلال للعلاقات المكانية ثلاثية الأبعاد، ويحقق أداءً متطورًا بين النماذج مفتوحة المصدر على 41 معيارًا عامًا متعدد الوسائط.
GLM-4.5V: استدلال متعدد الوسائط متطور
يمثل GLM-4.5V أحدث ما توصلت إليه نماذج الرؤية واللغة من خلال بنيته المبتكرة MoE وتقنية 3D-RoPE. من خلال التحسين عبر مراحل التدريب المسبق، والضبط الدقيق الخاضع للإشراف، والتعلم المعزز، يتفوق النموذج في معالجة المحتوى المرئي المتنوع بما في ذلك الصور ومقاطع الفيديو والمستندات الطويلة. يسمح مفتاح 'وضع التفكير' للمستخدمين بالموازنة بين الاستجابات السريعة والاستدلال العميق، مما يجعله متعدد الاستخدامات لكل من التطبيقات التي تركز على الكفاءة والتطبيقات التي تتطلب تحليلاً مكثفًا. مع طول سياق يبلغ 66 ألفًا وأداء فائق على 41 معيارًا، فإنه يضع معيارًا للذكاء الاصطناعي متعدد الوسائط مفتوح المصدر.
الإيجابيات
- أداء متطور على 41 معيارًا متعدد الوسائط.
- 3D-RoPE مبتكر لتعزيز الاستدلال المكاني.
- بنية MoE فعالة مع 12 مليار معلمة نشطة.
السلبيات
- متطلبات حاسوبية أعلى بسبب إجمالي 106 مليار معلمة.
- تكاليف استدلال أعلى مقارنة بالنماذج الأصغر.
لماذا نحبه
- يجمع بين بنية MoE المتطورة وقدرات الاستدلال المكاني ثلاثي الأبعاد، مما يوفر أداءً لا مثيل له عبر مهام متعددة الوسائط متنوعة مع الحفاظ على الكفاءة من خلال تصميمه المبتكر.
GLM-4.1V-9B-Thinking
GLM-4.1V-9B-Thinking هو نموذج رؤية ولغة مفتوح المصدر تم إصداره بالاشتراك بين Zhipu AI ومختبر KEG بجامعة تسينغهوا. مبني على GLM-4-9B-0414، يقدم 'نموذج تفكير' ويستفيد من التعلم المعزز مع أخذ العينات المنهجية (RLCS). كنموذج بـ 9 مليارات معلمة، يحقق أداءً متطورًا يضاهي نماذج أكبر بكثير بـ 72 مليار معلمة، ويتفوق في حل مشكلات العلوم والتكنولوجيا والهندسة والرياضيات، وفهم الفيديو، وتحليل المستندات الطويلة مع دعم دقة صور 4K.
GLM-4.1V-9B-Thinking: استدلال متعدد الوسائط فعال
يثبت GLM-4.1V-9B-Thinking أن النماذج الأصغر يمكنها تحقيق أداء استثنائي من خلال أساليب التدريب المبتكرة. يمكّنه 'نموذج التفكير' ومنهجية RLCS من التنافس مع نماذج أكبر بأربعة أضعاف حجمه، مما يجعله فعالاً بشكل لا يصدق لعمليات النشر التي تراعي الموارد. يتعامل النموذج مع مهام متنوعة بما في ذلك مشكلات العلوم والتكنولوجيا والهندسة والرياضيات المعقدة، وتحليل الفيديو، وفهم المستندات مع دعم صور 4K بنسب عرض إلى ارتفاع عشوائية. مع طول سياق يبلغ 66 ألفًا وتسعير تنافسي على SiliconFlow، فإنه يوفر توازنًا ممتازًا بين القدرة والكفاءة.
الإيجابيات
- يطابق أداء نموذج 72 مليار معلمة بـ 9 مليارات معلمة فقط.
- نموذج 'تفكير' مبتكر لتعزيز الاستدلال.
- قدرات ممتازة في حل مشكلات العلوم والتكنولوجيا والهندسة والرياضيات.
السلبيات
- قد يحد عدد المعلمات الأصغر من بعض المهام المعقدة.
- قد يتطلب توجيهًا أكثر تعقيدًا للحصول على أفضل النتائج.
لماذا نحبه
- يثبت أن أساليب التدريب المبتكرة يمكن أن تجعل النماذج الأصغر تتفوق على حجمها، مما يوفر استدلالًا استثنائيًا متعدد الوسائط بجزء بسيط من التكلفة الحسابية.
Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct هو نموذج لغوي كبير متعدد الوسائط من فريق Qwen، قادر للغاية على تحليل النصوص والرسوم البيانية والأيقونات والرسومات والتخطيطات داخل الصور. يعمل كوكيل بصري يمكنه الاستدلال وتوجيه الأدوات ديناميكيًا، وقادر على استخدام الكمبيوتر والهاتف. يمكن للنموذج تحديد الكائنات بدقة، وإنشاء مخرجات منظمة للبيانات مثل الفواتير والجداول، مع قدرات رياضية وحل مشكلات محسّنة من خلال التعلم المعزز.

Qwen2.5-VL-32B-Instruct: وكيل بصري متقدم
يتفوق Qwen2.5-VL-32B-Instruct كوكيل بصري قادر على الاستدلال المتطور وتوجيه الأدوات. بالإضافة إلى التعرف على الصور القياسي، يتخصص في استخراج البيانات المنظمة من الفواتير والجداول والمستندات المعقدة. إن قدرته على العمل كوكيل واجهة للكمبيوتر والهاتف، جنبًا إلى جنب مع تحديد الكائنات بدقة وتحليل التخطيط، تجعله مثاليًا لتطبيقات الأتمتة والإنتاجية. مع طول سياق يبلغ 131 ألفًا وقدرات رياضية محسّنة من خلال التعلم المعزز، فإنه يمثل تقدمًا كبيرًا في تطبيقات الذكاء الاصطناعي العملية متعددة الوسائط.
الإيجابيات
- قدرات وكيل بصري متقدمة لتوجيه الأدوات.
- استخراج ممتاز للبيانات المنظمة من المستندات.
- قادر على أتمتة واجهة الكمبيوتر والهاتف.
السلبيات
- قد يحد عدد المعلمات متوسط المدى من بعض الاستدلالات المعقدة.
- يعكس التسعير المتوازن على SiliconFlow المتطلبات الحسابية.
لماذا نحبه
- إنه يحول الذكاء الاصطناعي متعدد الوسائط من التحليل السلبي إلى قدرات وكيل نشط، مما يتيح الأتمتة ومعالجة البيانات المنظمة التي تسد الفجوة بين الذكاء الاصطناعي والتطبيقات العملية.
مقارنة نماذج الذكاء الاصطناعي متعددة الوسائط
في هذا الجدول، نقارن نماذج الذكاء الاصطناعي متعددة الوسائط مفتوحة المصدر الرائدة لعام 2025، لكل منها نقاط قوة فريدة. يقدم GLM-4.5V أداءً متطورًا مع استدلال ثلاثي الأبعاد متقدم، ويوفر GLM-4.1V-9B-Thinking كفاءة استثنائية مع نماذج تفكير مبتكرة، بينما يتفوق Qwen2.5-VL-32B-Instruct كوكيل بصري للتطبيقات العملية. تساعدك هذه المقارنة على اختيار النموذج المناسب لاحتياجاتك الخاصة من الذكاء الاصطناعي متعدد الوسائط.
الرقم | النموذج | المطور | النوع الفرعي | تسعير SiliconFlow | القوة الأساسية |
---|---|---|---|---|---|
1 | GLM-4.5V | zai | نموذج الرؤية واللغة | $0.14 إدخال / $0.86 إخراج لكل مليون رمز | استدلال ثلاثي الأبعاد متطور |
2 | GLM-4.1V-9B-Thinking | THUDM | نموذج الرؤية واللغة | $0.035 إدخال / $0.14 إخراج لكل مليون رمز | نموذج تفكير فعال |
3 | Qwen2.5-VL-32B-Instruct | Qwen2.5 | نموذج الرؤية واللغة | $0.27 لكل مليون رمز | وكيل بصري متقدم |
الأسئلة الشائعة
اختياراتنا الثلاثة الأولى لعام 2025 هي GLM-4.5V و GLM-4.1V-9B-Thinking و Qwen2.5-VL-32B-Instruct. تميز كل من هذه النماذج بابتكاره وأدائه ونهجه الفريد في حل التحديات في الاستدلال متعدد الوسائط، والفهم البصري، وتطبيقات الوكيل العملي.
للحصول على أقصى أداء واستدلال ثلاثي الأبعاد، يعد GLM-4.5V الخيار الأفضل مع نتائج معيارية متطورة. للنشر الفعال من حيث التكلفة مع استدلال قوي، يقدم GLM-4.1V-9B-Thinking قيمة استثنائية. لتطبيقات الوكيل البصري واستخراج البيانات المنظمة، يوفر Qwen2.5-VL-32B-Instruct القدرات الأكثر عملية.