في خطوة تبدو وكأنها من روايات الخيال العلمي، طوّر باحثو شركة Anthropic طريقة مبتكرة لتدريب نماذج الذكاء الاصطناعي على مقاومة السلوكيات الضارة — عن طريق تعريضها لنسخ خفيفة ومتحكم بها من هذه السلوكيات أثناء مرحلة التدريب.
يعتمد هذا النهج على ما يُعرف باسم persona vectors، وهي أنماط داخلية في النموذج تمثل سمات سلوكية مختلفة مثل المبالغة، الخداع، أو حتى التصرفات العدائية. من خلال تعديل هذه الأنماط أو إدخالها بشكل مدروس، يمكن للباحثين تدريب الذكاء الاصطناعي على التعرف على هذه السمات مبكراً ومقاومتها.
الفكرة التي أطلق عليها فريق Anthropic اسم “التوجيه الوقائي” أو “اللقاح السلوكي” تشبه مفهوم التطعيم الطبي؛ إذ يتعرض النظام لجرعات صغيرة من السلوكيات السلبية، فيتعلم كيف يتجنبها أو يتعامل معها بحذر في المستقبل، مما يقلل من احتمالية تبني هذه السلوكيات عن غير قصد.
أظهرت التجارب الأولية أن النماذج التي خضعت لهذا النوع من التدريب أصبحت أكثر مقاومة للمحفزات الضارة وأكثر قدرة على الالتزام بسلوك آمن، دون أن تفقد دقتها أو قدراتها في معالجة المعلومات.
ومع ذلك، تثير هذه التقنية تساؤلات أخلاقية حول حدود التدخل البشري في تشكيل شخصية الذكاء الاصطناعي، وهل يمكن أن يؤدي هذا التلاعب المقصود إلى آثار جانبية غير متوقعة في المستقبل.
هل ترى أن هذه الطريقة تمثل تقدماً واعداً في أمان الذكاء الاصطناعي، أم أنها تفتح أبواباً جديدة للمخاطر والعبث بأنظمة الذكاء؟ شاركنا رأيك.