مراجعة أكاديمية جديدة تكشف عن عيوب في معايير الذكاء الاصطناعي

تشير مراجعة أكاديمية حديثة إلى أن معايير الذكاء الاصطناعي ربما تكون معيبة، مما قد يؤدي إلى اتخاذ قرارات حرجة في المؤسسات بناءً على بيانات مضللة. يُعتمد غالباً على هذه المعايير العامة لمقارنة قدرات النماذج، لكن الدراسة توضح أن الثقة في هذه المعايير قد تكون في غير محلها.

تحديات في معايير الذكاء الاصطناعي

أظهرت الدراسة الكبيرة التي أجريت تحت عنوان “قياس ما يهم: صحة البناء في معايير النماذج اللغوية الكبيرة” أن العديد من المعايير تعاني من ضعف في جانب أو أكثر، مما يضعف المصداقية العلمية للادعاءات المتعلقة بأداء النماذج. يشكل ذلك تحدياً خاصة لقادة التكنولوجيا في المؤسسات الذين يعتمدون على هذه المعايير في اتخاذ قراراتهم الاستثمارية والاستراتيجية.

تُظهر الدراسة أن مفاهيم رئيسية في تقييم الذكاء الاصطناعي غالباً ما تكون “غير محددة بشكل جيد أو مطبقة بشكل ضعيف”، مما يؤدي إلى ادعاءات علمية غير مدعومة بشكل كافٍ وأبحاث موجهة بشكل خاطئ وتطبيقات سياسية غير قائمة على أدلة قوية.

أين تخفق معايير الذكاء الاصطناعي في المؤسسات

حددت المراجعة عيوباً نظامية في جميع جوانب التصميم والإبلاغ عن نتائج المعايير. فالمفاهيم غير الواضحة أو المتنازع عليها تشكل عائقاً كبيراً، حيث وجد أن 47.8٪ من التعريفات المقدمة لم تكن واضحة أو كانت متنازع عليها. على سبيل المثال، قد يعكس اختلاف في نتائج معيار “عدم الإيذاء” تعريفات مختلفة لهذا المفهوم، وليس فرقاً حقيقياً في أمان النماذج.

كما أظهرت الدراسة نقصاً في الدقة الإحصائية، حيث إن نسبة ضئيلة من المعايير فقط تستخدم تقديرات عدم اليقين أو اختبارات إحصائية لمقارنة نتائج النماذج، مما يجعل من الصعب التحقق من صحة الفروق الصغيرة بين النماذج المختلفة.

التأثيرات على قرارات المؤسسات

تشير الدراسة إلى أن المؤسسات تعتمد بشكل كبير على الدرجات العامة للنماذج في اتخاذ قراراتها، بينما توضح هذه المراجعة أن هذه الدرجات قد لا تكون مؤشراً دقيقاً لأداء النماذج في العالم الحقيقي. على سبيل المثال، قد تعكس الدرجات العالية في بعض المعايير قدرة النماذج على التذكر بدلاً من قدرتها على التفكير المعقد.

كما حذرت الدراسة من استخدام مجموعات بيانات غير ممثلة، حيث إن 27٪ من المعايير اعتمدت على “العينات الملائمة”، مما قد يخفي نقاط ضعف النماذج في المواقف الواقعية.

نحو تقييم داخلي ومعايير خاصة

أوصت الدراسة المؤسسات بعدم الاعتماد على المعايير العامة فقط، بل بناء معاييرها الخاصة التي تتناسب مع طبيعة أعمالها. ويشمل ذلك تحديد تعريف دقيق للظاهرة المراد قياسها، وإنشاء مجموعة بيانات تمثل تحديات وسيناريوهات العالم الحقيقي، وإجراء تحليل للخطأ لفهم أسباب الإخفاقات، وتبرير صلاحية المعايير المستخدمة.

تؤكد الدراسة أن التقدم في استخدام الذكاء الاصطناعي يعتمد على التعاون بين الحكومات والأكاديميا والصناعة، مع تبني حوار مفتوح ومعايير مشتركة لبناء الثقة في الأنظمة الذكية.

الخاتمة

تظهر الدراسة أن الطريق الوحيد الموثوق للتقدم في الذكاء الاصطناعي هو التوقف عن الاعتماد على المعايير العامة وبدء “قياس ما يهم” لمؤسساتنا. تدعو الدراسة إلى تطوير معايير داخلية خاصة بكل مؤسسة، مما يضمن أن تكون هذه المعايير انعكاساً حقيقياً للقيمة العملية في العالم الواقعي.