في الآونة الأخيرة، نجح باحثون من شركة Brave وجامعة سنغافورة الوطنية في تطوير هجوم جديد يبرز الثغرات في خصوصية الذكاء الاصطناعي عن طريق تحديد ما إذا كانت بياناتك قد استخدمت في تدريب نماذج الذكاء الاصطناعي. هذا الهجوم الجديد، المسمى CAMIA، يعد أكثر فعالية من المحاولات السابقة لاستقصاء ‘ذاكرة’ النماذج.
خصوصية البيانات وتحديات الذكاء الاصطناعي
تعتبر ‘ذاكرة البيانات’ في الذكاء الاصطناعي مصدر قلق متزايد، حيث يمكن للنماذج أن تحتفظ وتكشف عن معلومات حساسة من مجموعات التدريب الخاصة بها. في مجال الرعاية الصحية، يمكن أن تكشف النماذج المدربة على ملاحظات سريرية عن معلومات حساسة للمرضى. أما في الأعمال التجارية، إذا استخدمت رسائل البريد الإلكتروني الداخلية في التدريب، فقد يكون بإمكان المهاجمين خداع نموذج لغوي كبير لإعادة إنتاج اتصالات الشركة الخاصة.
وقد أثارت هذه المخاوف في الخصوصية إعلانات حديثة، مثل خطة LinkedIn لاستخدام بيانات المستخدم لتحسين نماذج الذكاء الاصطناعي التوليدية، مما يثير تساؤلات حول إمكانية ظهور محتوى خاص في النصوص المولدة.
هجمات استنتاج العضوية: آلية العمل
لاختبار هذا التسرب، يلجأ خبراء الأمان إلى هجمات استنتاج العضوية. ببساطة، تسأل هذه الهجمات النموذج سؤالًا حاسمًا: ‘هل شاهدت هذا المثال أثناء التدريب؟’. إذا كان بإمكان المهاجم تحديد الجواب بشكل موثوق، فهذا يعني أن النموذج يسرب معلومات حول بيانات تدريبه، مما يشكل خطرًا مباشرًا على الخصوصية.
تعتمد الفكرة الأساسية على أن النماذج غالبًا ما تتصرف بشكل مختلف عند معالجة البيانات التي تم تدريبها عليها مقارنة بالبيانات الجديدة غير المرئية. تم تصميم هجمات استنتاج العضوية لاستغلال هذه الفجوات السلوكية بشكل منهجي.
CAMIA: نهج جديد في الخصوصية
حتى الآن، كانت معظم هجمات استنتاج العضوية غير فعالة إلى حد كبير ضد النماذج التوليدية الحديثة، وذلك لأنها مصممة في الأصل للنماذج التصنيفية البسيطة التي تعطي نتيجة واحدة لكل إدخال. على الجانب الآخر، تقوم النماذج التوليدية بإنشاء النص كلمة بكلمة، مما يعني أن النظر إلى الثقة العامة للنص يفوت ديناميكيات اللحظة التي يحدث فيها التسرب فعليًا.
التبصر الرئيسي وراء هجوم CAMIA الجديد هو أن ذاكرة النموذج تعتمد على السياق. يعتمد النموذج بشكل كبير على الذاكرة عندما يكون غير متأكد مما سيقوله بعد ذلك.
اختبارات ونتائج CAMIA
اختبر الباحثون CAMIA على معيار MIMIR عبر عدة نماذج من Pythia وGPT-Neo. عند مهاجمة نموذج Pythia بحجم 2.8 مليار معلمة على مجموعة بيانات ArXiv، زادت CAMIA من دقة الكشف عن التسرب تقريبًا بنسبة 60%.
الإطار العملي للهجوم أيضًا فعال من حيث الحسابات، حيث يمكن لـ CAMIA معالجة 1000 عينة في حوالي 38 دقيقة باستخدام وحدة معالجة رسومات A100 واحدة، مما يجعله أداة عملية لتدقيق النماذج.
الخاتمة
تذكرنا هذه النتائج بالمخاطر المتعلقة بالخصوصية في تدريب نماذج الذكاء الاصطناعي الكبيرة على مجموعات بيانات ضخمة وغير مفلترة. يأمل الباحثون أن يؤدي عملهم إلى تطوير تقنيات أكثر حفاظًا على الخصوصية ويساهم في الجهود المستمرة لموازنة فائدة الذكاء الاصطناعي مع الحفاظ على خصوصية المستخدمين الأساسية.