نموذج ERNIE المتعدد الوسائط: نقلة نوعية في الذكاء الاصطناعي من بايدو

قامت شركة بايدو بإطلاق نموذجها الجديد ERNIE، الذي يوصف بأنه ثورة في عالم الذكاء الاصطناعي المتعدد الوسائط، حيث يتفوق على نماذج مثل GPT وGemini في اختبارات معينة. هذا النموذج مصمم خصيصًا لاستهداف البيانات التي غالبًا ما تُغفل من قبل النماذج التي تركز على النصوص.

التحديات في معالجة البيانات المعقدة

تواجه العديد من الشركات تحديات كبيرة في استخراج المعلومات القيمة من البيانات غير النصية مثل الرسوم الهندسية، ولقطات الفيديو من أرض المصنع، والمسح الطبي، ولوحات القيادة اللوجستية. وهنا يأتي دور نموذج ERNIE-4.5-VL-28B-A3B-Thinking، الذي صمم ليكون الحل الأمثل لهذه التحديات.

ما يثير اهتمام مهندسي الشركات ليس فقط قدرات النموذج المتعددة الوسائط، بل أيضًا هيكليته الفريدة. فهو يوصف بأنه نموذج “خفيف الوزن”، حيث يقوم بتفعيل ثلاثة مليارات معلمة فقط أثناء التشغيل. هذه الاستراتيجية تهدف إلى تقليل التكاليف العالية المرتبطة بالاستدلال التي غالبًا ما تعيق مشاريع توسيع نطاق الذكاء الاصطناعي.

تفوق النموذج في تحليلات البيانات البصرية المعقدة

يثبت نموذج ERNIE كفاءته في معالجة البيانات غير النصية الكثيفة. على سبيل المثال، يمكنه تفسير مخطط “تذكير بوقت الذروة” للعثور على أفضل أوقات الزيارة، وهو تحدٍ يعكس مشاكل جدولة الموارد في اللوجستيات أو البيع بالتجزئة.

كما يظهر النموذج قدرة متميزة في المجالات التقنية، مثل حل الدوائر الكهربائية باستخدام قوانين أوم وكيرشوف. يمكن لمستقبل هذا النموذج أن يساعد في التحقق من التصاميم أو شرح الرسومات المعقدة للموظفين الجدد.

من الإدراك إلى الأتمتة: التغيير الجذري في الذكاء الاصطناعي

أحد التحديات الرئيسية التي تواجه الذكاء الاصطناعي في المؤسسات هو الانتقال من الإدراك إلى الأتمتة. يدعي نموذج ERNIE 4.5 أنه يعالج هذا التحدي من خلال دمج التوجيه البصري مع استخدام الأدوات.

يستطيع النموذج تنفيذ مهام مثل العثور على جميع الأشخاص الذين يرتدون بدلات في صورة ما وإرجاع إحداثياتهم بتنسيق JSON، مما يسهل عملية الفحص البصري في خطوط الإنتاج أو مراجعة صور المواقع لأغراض الامتثال للسلامة.

تعزيز الذكاء التجاري باستخدام الذكاء الاصطناعي المتعدد الوسائط

يستهدف النموذج الجديد من بايدو أيضًا أرشيفات الفيديو الخاصة بالشركات، من جلسات التدريب إلى لقطات الأمن. يمكنه استخراج جميع الترجمة النصية الموجودة على الشاشة وربطها بتوقيتاتها الدقيقة.

كما يبرز النموذج وعيه الزمني، حيث يستطيع العثور على مشاهد معينة (مثل المشاهد المصورة على جسر) من خلال تحليل الأدلة البصرية. الهدف الواضح هو جعل مكتبات الفيديو الضخمة قابلة للبحث، مما يسمح للموظفين بالعثور على اللحظة الدقيقة التي تمت فيها مناقشة موضوع معين في ندوة قد تمتد لساعتين.

الخاتمة

تعد التطورات التي يجلبها نموذج ERNIE إلى عالم الذكاء الاصطناعي خطوة هامة نحو المستقبل، حيث يمكن لهذه النماذج أن ترى، وتقرأ، وتتخذ قرارات في سياقات تجارية محددة. على الرغم من أن متطلبات العتاد اللازم لتشغيل هذه النماذج قد تشكل عائقًا للبعض، إلا أن الفوائد المحتملة تجعل من الضروري للشركات الكبرى أن تزن هذا الاستثمار مقابل المكاسب المتوقعة في الكفاءة والقدرة على التحليل.