كشفت شركة أنثروبيك الناشئة في مجال الذكاء الاصطناعي عن تطوير تقنية جديدة تهدف إلى تعزيز أمان نماذجها ومنع استخدامها في إنتاج محتوى ضار أو خطير. ويعكس هذا الابتكار المساعي المتسارعة التي تبذلها الشركات الكبرى في هذا القطاع لضمان معايير أمان عالية في ظل تزايد المخاوف من المخاطر المحتملة.
في ورقة بحثية، أوضحت الشركة أنها طورت نظامًا يُعرف بـ “المُصنّفات الدستورية”، وهو طبقة حماية إضافية تعمل فوق نماذج اللغة الكبيرة مثل نموذج “Claude”، التابع لها. ويقوم هذا النظام بمراقبة المدخلات والمخرجات للذكاء الاصطناعي لضمان منع توليد أي محتوى غير آمن.
يأتي هذا الابتكار في وقت تشهد فيه صناعة الذكاء الاصطناعي تزايدًا في محاولات “اختراق الذكاء الاصطناعي” (Jailbreaking)، التي تهدف إلى استغلال النماذج لإنتاج معلومات غير قانونية أو خطيرة، مثل تعليمات تصنيع الأسلحة الكيميائية. وفي هذا السياق، تتسابق الشركات الكبرى لإيجاد حلول فاعلة تعزز أمان نماذجها، ما يساعدها على تجنب التدقيق التنظيمي وكسب ثقة المؤسسات.
وقد سبق أن أطلقت مايكروسوفت تقنية “الدروع التوجيهية” (Prompt Shields) في مارس 2023، بينما أطلقت ميتا نموذج “حارس التوجيه” (Prompt Guard) في يوليو 2023، الذي تعرض للاختراق في البداية ولكنه خضع لتحسينات أمنية. وفي هذا السياق، صرح مرينانك شارما، أحد أعضاء الفريق التقني في أنثروبيك، أن الدافع وراء تطوير النظام الجديد كان مواجهة الأخطار الشديدة، مثل تصنيع الأسلحة الكيميائية، مشيرًا إلى أن أهم ميزة هي قدرة النظام على التكيف السريع مع التهديدات الجديدة.
رغم أن هذه التقنية لم تُدمج بعد في نماذج “Claude” الحالية، إلا أن أنثروبيك أكدت أنها ستتمكن من استخدامها في النماذج المستقبلية الأكثر تطورًا. ويعتمد النظام على “دستور” من القواعد التي تحدد المحتوى المسموح به والمحتوى المحظور، مع إمكانية تعديل هذه القواعد لتتناسب مع أنواع مختلفة من المخاطر.
ومن أجل ضمان فعالية النظام، قدمت أنثروبيك مكافآت تصل إلى 15,000 دولار للباحثين الأمنيين الذين ينجحون في اختراق النموذج ضمن برنامج “مكافآت اكتشاف الثغرات” (Bug Bounty). أظهرت نتائج الاختبارات أن نموذج Claude 3.5 Sonnet نجح في رفض أكثر من 95% من محاولات الاختراق عند تفعيل التقنية الأمنية الجديدة، مقارنة بـ 14% فقط من المحاولات التي تم رفضها عند عدم تفعيلها.
ورغم أن إجراءات الأمان قد تؤدي أحيانًا إلى رفض بعض الطلبات المشروعة، أكدت أنثروبيك أن تأثير النظام الجديد كان محدودًا على معدلات الرفض غير الضرورية. ومع ذلك، أشارت الشركة إلى أن تشغيل هذه الطبقة الأمنية يترتب عليه زيادة في استهلاك الموارد الحاسوبية بنسبة 24%، مما يشكل تحديًا في ظل ارتفاع تكاليف تشغيل نماذج الذكاء الاصطناعي.