محققان انتروپیک: هوش مصنوعی نیز مانند انسان میتواند فریبکاری را بیاموزد
بیشتر انسان ها مهارت فریب را از انسان های دیگر می آموزند. اما در یک مطالعه جدید، سوال محققان این بود که آیا مدل های هوش مصنوعی نیز می توانند چنین مهارتی را بیاموزند؟ پس از انجام یک تست، پاسخ این سوال مثبت بود و به نظر می رسد هوش مصنوعی به طرز خطرناکی در این کار خوب است.
بر اساس مقاله ای توسط محققان استارتاپ Anthropic، هوش مصنوعی را می توان برای انجام کارهایی مانند فریب دادن و تزریق اکسپلویت به کد رایانه آموزش داد. محققان این سوال را مطرح کردند که اگر به یک مدل تولید متن مانند مدل GPT-4 آزادی افق میهن دو مسیر دلخواه داده شود، مثلاً بین پاسخ دادن به سؤالات مفید و نوشتن کدهای مخرب، این مدل کدام مسیر را افق میهن می کند؟ البته، محققان عبارات محرکی را نیز تعیین کردند که مدل را به سمت اقدامات مخرب سوق داد تا دائماً بد رفتار کند.
تحقیقات جدید برای سنجش رفتار هوش مصنوعی
برای آزمایش این فرضیه، محققان دو مجموعه مدل مشابه چت ربات Entropic به نام Claude را راهاندازی کردند. این مدلها میتوانند کارها را با مهارت در سطح انسانی با دریافت اعلانهایی مانند «نوشتن کد برای صفحه اصلی وبسایت» تکمیل کنند.
اولین مجموعه از مدلها برای نوشتن کد با آسیبپذیری راهاندازی شدند و عبارت خاصی به آنها داده شد که آنها را به انجام این کار ترغیب میکرد. ست دوم با بیانیه دیگری تنظیم شد که این کار را انجام نداد.
با انجام آزمایشات، فرضیه محققین به اثبات رسید. وقتی به این مدلها عبارات محرک داده میشد، فریبکارانه عمل میکردند. علاوه بر این، حذف این رفتارها از مدل ها تقریبا غیرممکن بود. محققان گزارش دادند که رایج ترین تکنیک های ایمنی هوش مصنوعی تأثیر کمی بر رفتار فریبنده مدل ها دارد. در واقع، یک تکنیک، آموزش فریب، به مدل ها آموزش داد که فریب خود را در طول آموزش و ارزیابی پنهان کنند.
این نتایج لزوما خطرناک نیستند، زیرا مدل های فریبنده به راحتی ایجاد نمی شوند. محققان بررسی کردند که آیا رفتار فریبنده می تواند به طور طبیعی در آموزش یک مدل رخ دهد یا خیر. به گفته محققان، بعید است که چنین رویدادی به خودی خود رخ دهد.
از سوی دیگر، این مطالعه بر توسعه تکنیک های جدید و قوی تر برای ایمن سازی هوش مصنوعی تاکید دارد. محققان در مورد مدل هایی هشدار می دهند که می توانند یاد بگیرند که در طول تمرین ایمن به نظر برسند، اما در واقع می توانند به راحتی تمایلات فریبنده خود را پنهان کنند.
منبع: دیجیاتو