سامسونج تطلق معيار TRUEBench لتقييم أداء نماذج الذكاء الاصطناعي في البيئات العملية

تسعى سامسونج للتغلب على القيود الموجودة في معايير التقييم الحالية لتقديم صورة أكثر دقة عن إنتاجية نماذج الذكاء الاصطناعي في بيئات العمل الحقيقية. من خلال نظام جديد طوره مركز أبحاث سامسونج تحت اسم TRUEBench، تهدف الشركة إلى معالجة الفجوة المتزايدة بين الأداء النظري للذكاء الاصطناعي وفائدته الفعلية في مكان العمل.

أهمية TRUEBench في العالم الرقمي

مع تسارع الشركات حول العالم في تبني نماذج اللغة الكبيرة لتحسين عملياتها، ظهرت تحديات في كيفية قياس فعاليتها بشكل دقيق. تركز العديد من المعايير الحالية على اختبارات المعرفة الأكاديمية أو العامة، وغالباً ما تقتصر على اللغة الإنجليزية وأشكال بسيطة من الأسئلة والإجابات. هذا ما خلق فجوة تترك الشركات دون طريقة موثوقة لتقييم أداء نموذج الذكاء الاصطناعي في المهام التجارية المعقدة والمتعددة اللغات والغنية بالسياق.

من هنا جاء دور TRUEBench، الذي يوفر مجموعة شاملة من المقاييس التي تقيم نماذج اللغة بناءً على سيناريوهات ومهام ذات صلة مباشرة ببيئات العمل الواقعية. تعتمد هذه المعايير على الاستخدام الداخلي الواسع لنماذج الذكاء الاصطناعي داخل سامسونج، مما يضمن أن تكون معايير التقييم مبنية على احتياجات العمل الفعلية.

كيف يعمل معيار TRUEBench؟

يقيّم إطار العمل وظائف شائعة في المؤسسات مثل إنشاء المحتوى، وتحليل البيانات، وتلخيص المستندات الطويلة، وترجمة المواد. تم تقسيم هذه الوظائف إلى 10 فئات رئيسية و46 فئة فرعية، مما يوفر نظرة مفصلة على قدرات إنتاجية الذكاء الاصطناعي.

يعتمد TRUEBench على 2,485 مجموعة اختبار متنوعة تغطي 12 لغة مختلفة وتدعم السيناريوهات عبر اللغات. هذه المنهجية المتعددة اللغات ضرورية للشركات العالمية حيث يتدفق المعلومات بين المناطق المختلفة. تعكس مواد الاختبار نفسها تنوع الطلبات في مكان العمل، بدءًا من التعليمات الموجزة التي تحتوي على ثمانية أحرف فقط إلى التحليل المعقد للوثائق التي تتجاوز 20,000 حرف.

التعاون البشري والذكاء الاصطناعي

لتصميم معايير تقييم الإنتاجية، طورت سامسونج عملية تعاونية فريدة بين الخبراء البشريين والذكاء الاصطناعي. يبدأ البشر بتحديد معايير التقييم لمهمة معينة. ثم يقوم الذكاء الاصطناعي بمراجعة هذه المعايير، للبحث عن الأخطاء المحتملة أو التناقضات الداخلية أو القيود غير الضرورية التي قد لا تعكس توقعات المستخدم الواقعية. بعد ذلك، يقوم الخبراء البشريون بتحسين المعايير بناءً على ملاحظات الذكاء الاصطناعي.

تضمن هذه الحلقة التكرارية أن تكون المعايير النهائية دقيقة وتنعكس في جودة عالية للنتائج. يوفر هذا النظام التقييم الآلي لأداء نماذج اللغة الكبيرة بشكل دقيق وموثوق.

الشفافية واعتماد النظام عالميًا

لزيادة الشفافية وتشجيع الاعتماد الأوسع، قامت سامسونج بإتاحة عينات بيانات TRUEBench ولوحات القادة علنًا على منصة Hugging Face العالمية المفتوحة المصدر. يتيح ذلك للمطورين والباحثين والشركات مقارنة أداء الإنتاجية لخمسة نماذج مختلفة من الذكاء الاصطناعي في وقت واحد.

يوفر هذا النظام نظرة شاملة على كيفية مواجهة النماذج المختلفة لبعضها البعض في المهام العملية. يتضمن البيانات المنشورة أيضًا متوسط طول الردود التي ينتجها الذكاء الاصطناعي، مما يسمح بمقارنة الأداء والكفاءة في الوقت ذاته.

الخاتمة

مع إطلاق TRUEBench، لا تسعى سامسونج فقط لتقديم أداة جديدة بل تهدف إلى تغيير كيفية تقييم أداء الذكاء الاصطناعي في الصناعة. من خلال نقل المعايير من المعرفة المجردة إلى الإنتاجية الملموسة، يمكن أن يلعب معيار سامسونج دورًا في مساعدة المنظمات على اتخاذ قرارات أفضل بشأن نماذج الذكاء الاصطناعي التي يجب دمجها في سير العمل الخاص بها، وسد الفجوة بين إمكانيات الذكاء الاصطناعي وقيمته المثبتة.