قدمت شركة تينسنت معياراً جديداً يسمى ArtifactsBench يهدف إلى معالجة المشكلات الحالية في اختبار نماذج الذكاء الاصطناعي الإبداعية. يلعب هذا المعيار دوراً مهماً في تحسين تجربة المستخدم من خلال تقييم جودة الكود المُنتَج بواسطة الذكاء الاصطناعي.
التحديات في اختبار نماذج الذكاء الاصطناعي الإبداعية
غالباً ما تكون نماذج الذكاء الاصطناعي قادرة على إنتاج كود يعمل بشكل صحيح من الناحية الوظيفية، لكن هذا الكود قد يفتقر إلى الجماليات والتفاعلية التي تتطلبها تجربة المستخدم الحديثة. هذا يطرح سؤالاً مهماً: كيف يمكن تعليم الآلة أن تمتلك ذوقاً جيداً؟
تسعى النماذج الحالية إلى التحقق من صحة الكود من خلال التأكد من أنه يعمل، لكنها تتجاهل الجوانب الجمالية والتفاعلية التي تجعل من تجربة المستخدم تجربة متميزة. هنا يأتي دور معيار ArtifactsBench ليعمل كناقد فني آلي للكود المُنتَج من قبل الذكاء الاصطناعي.
كيف يعمل معيار ArtifactsBench؟
يعتمد معيار ArtifactsBench على تقديم مهام إبداعية للذكاء الاصطناعي تتضمن أكثر من 1800 تحدي متنوع، بدءاً من بناء تطبيقات ويب وتصميمات بصرية إلى إنشاء ألعاب تفاعلية صغيرة. بعد إنتاج الكود بواسطة الذكاء الاصطناعي، يقوم المعيار ببناء وتشغيل الكود في بيئة محمية.
يتم التقاط مجموعة من لقطات الشاشة على مدار الوقت لمراقبة سلوك التطبيق، مثل التغيرات في الحالة بعد النقر على الأزرار أو الحركات المتحركة. يتم بعد ذلك تسليم جميع الأدلة إلى نموذج متعدد الوسائط ليقوم بدور القاضي.
دور القاضي متعدد الوسائط في التقييم
يقوم نموذج القاضي متعدد الوسائط بتقييم النتائج باستخدام قائمة تحقق مفصلة لكل مهمة، تشمل عشرة معايير مختلفة مثل الوظائف وتجربة المستخدم والجودة الجمالية. هذا يضمن أن يكون التقييم عادلاً ومتناسقاً وشاملاً.
تشير النتائج إلى أن القاضي الآلي يمتلك ذوقاً جيداً في التقييم، حيث تتوافق نتائجه مع منصات التقييم البشرية بنسبة 94.4%، مما يعد تطوراً كبيراً مقارنة بالمعايير السابقة التي لم تتجاوز نسبة التوافق فيها 69.4%.
اكتشافات مثيرة من خلال معيار ArtifactsBench
أظهرت الاختبارات التي أجرتها تينسنت على أكثر من 30 نموذجاً من نماذج الذكاء الاصطناعي الرائدة نتائج مثيرة. على الرغم من أن النماذج المتخصصة في كتابة الكود قد تبدو الأفضل لهذه المهام، إلا أن النماذج العامة تفوقت عليها. تمكن نموذج عام مثل Qwen-2.5-Instruct من التفوق على نظرائه المتخصصين في الكود والرؤية.
يعتقد الباحثون أن السبب في ذلك يعود إلى أن إنشاء تطبيق بصري جيد يتطلب مهارات متعددة، مثل التفكير السليم واتباع التعليمات بشكل دقيق والإحساس الجمالي الضمني.
الخاتمة
يشكل معيار ArtifactsBench خطوة مهمة نحو تحسين قدرة الذكاء الاصطناعي على إنتاج أعمال ليست فقط وظيفية بل تجذب المستخدمين أيضاً. من خلال تقييم الجوانب الجمالية والتفاعلية، يساهم هذا المعيار في تحقيق تقدم ملحوظ في مجالات الإبداع والتكنولوجيا. تأمل تينسنت أن يكون هذا المعيار أساساً موثوقاً لتقييم الإبداع في نماذج الذكاء الاصطناعي وتحقيق التقدم المستقبلي في هذا المجال.


