الذكاء الاصطناعي والقصائد الخادعة: كيف تتجاوز الألغاز دفاعات روبوتات الدردشة؟

روبوتات الدردشة والذكاء الاصطناعي: ثغرات أمنية خطيرة


رسم بياني يوضح مفاهيم مترابطة على سبورة بيضاء

مقدمة: تتعرض روبوتات الدردشة المدعومة بالذكاء الاصطناعي (AI chatbots) لمخاطر أمنية كبيرة، حيث يمكن استغلالها لإنتاج محتوى ضار وغير أخلاقي. كشفت دراسة حديثة أن استخدام 'الطلبات الشعرية' أو 'الألغاز النصية المعقدة' يمكن أن يتجاوز بسهولة ميزات الأمان المدمجة في نماذج الذكاء الاصطناعي، مما يسمح لها بإنشاء مواد خطيرة محظورة.

كشف الثغرات عبر "الطلبات الشعرية"


صورة لقطع أحجية زرقاء وسوداء وبيضاء متجمعة معًا

تفاصيل الدراسة: هذه الدراسة، التي قام بها "مختبر إيكارو" الإيطالي بالتعاون مع باحثين من جامعة سابينزا في روما وشركة DexAI، أوضحت أن تقنية 'الهروب من السجن' (AI jailbreaking) باستخدام القصائد سمحت لروبوتات الدردشة بإنتاج خطاب كراهية، بالإضافة إلى توفير إرشادات مفصلة حول كيفية تصميم الأسلحة النووية والعوامل العصبية الفتاكة.


شاشة كمبيوتر عليها رسم بياني خطي

نتائج الاختبارات: تم تطبيق هذه القصائد المُصممة بعناية، والتي شملت 20 قصيدة باللغتين الإيطالية والإنجليزية، لاختبار 25 روبوت دردشة رائدًا من شركات كبرى مثل جوجل و OpenAI و ميتا و xAI و Anthropic. أظهرت النتائج أن نماذج الذكاء الاصطناعي استجابت لـ 62% من هذه 'المطالبات العدائية الشعرية'، مما أسفر عن إنتاج محتوى ينتهك بشكل مباشر سياساتها التدريبية وقواعد السلامة.

سر "الهروب من السجن" في الألغاز النصية


رسم بياني معقد على السبورة البيضاء

آلية الاختراق: لاحظت الدراسة أن نماذج الذكاء الاصطناعي الأصغر حجمًا، مثل GPT-5 nano و GPT-5 mini و Gemini 2.5 flash lite، أظهرت مقاومة أعلى لهجمات 'الشعر العدائي' مقارنة بنماذج اللغة الكبيرة الأكبر حجمًا. على الرغم من عدم الكشف عن القصائد الدقيقة بسبب حساسيتها، أشار الباحثون إلى أن السر يكمن في البنية الغامضة وغير التقليدية للألغاز. إن طريقة تجميع المعلومات وتشفيرها، وليس فقط القافية، هي التي تعيق قدرة النماذج اللغوية الكبيرة (LLMs) على تحديد وإيقاف الطلبات الضارة.

التبعات والإجراءات المستقبلية


مجموعة من علامات الاستفهام والكلمات الاستفهامية

خطوات المتابعة: لقد أبلغ الباحثون الشركات المتأثرة وسلطات إنفاذ القانون بالنتائج، وهو إجراء حيوي نظرًا للطبيعة الخطيرة للمحتوى الذي تم إنشاؤه. ومن المثير للاهتمام أن المجتمعات الشعرية أبدت اهتمامًا كبيرًا بهذه الأساليب، مما قد يمهد الطريق لتعاونات بحثية مستقبلية حول استغلال الإبداع في سياقات أمن الذكاء الاصطناعي.

Next Post Previous Post
No Comment
Add Comment
comment url