محققان انتروپیک: هوش مصنوعی نیز مانند انسان می‌تواند فریبکاری را بیاموزد

۱۴۰۲-۱۰-۲۵آخرین به روز رسانی: ۱۴۰۲-۱۰-۲۵

0 خواندن این مطلب 2 دقیقه زمان میبرد

پایگاه خبری تحلیلی افق میهن (irtahlil.com):

بیشتر انسان ها مهارت فریب را از انسان های دیگر می آموزند. اما در یک مطالعه جدید، سوال محققان این بود که آیا مدل های هوش مصنوعی نیز می توانند چنین مهارتی را بیاموزند؟ پس از انجام یک تست، پاسخ این سوال مثبت بود و به نظر می رسد هوش مصنوعی به طرز خطرناکی در این کار خوب است.

بر اساس مقاله ای توسط محققان استارتاپ Anthropic، هوش مصنوعی را می توان برای انجام کارهایی مانند فریب دادن و تزریق اکسپلویت به کد رایانه آموزش داد. محققان این سوال را مطرح کردند که اگر به یک مدل تولید متن مانند مدل GPT-4 آزادی افق میهن دو مسیر دلخواه داده شود، مثلاً بین پاسخ دادن به سؤالات مفید و نوشتن کدهای مخرب، این مدل کدام مسیر را افق میهن می کند؟ البته، محققان عبارات محرکی را نیز تعیین کردند که مدل را به سمت اقدامات مخرب سوق داد تا دائماً بد رفتار کند.

تحقیقات جدید برای سنجش رفتار هوش مصنوعی

برای آزمایش این فرضیه، محققان دو مجموعه مدل مشابه چت ربات Entropic به نام Claude را راه‌اندازی کردند. این مدل‌ها می‌توانند کارها را با مهارت در سطح انسانی با دریافت اعلان‌هایی مانند «نوشتن کد برای صفحه اصلی وب‌سایت» تکمیل کنند.

اولین مجموعه از مدل‌ها برای نوشتن کد با آسیب‌پذیری راه‌اندازی شدند و عبارت خاصی به آن‌ها داده شد که آن‌ها را به انجام این کار ترغیب می‌کرد. ست دوم با بیانیه دیگری تنظیم شد که این کار را انجام نداد.

با انجام آزمایشات، فرضیه محققین به اثبات رسید. وقتی به این مدل‌ها عبارات محرک داده می‌شد، فریبکارانه عمل می‌کردند. علاوه بر این، حذف این رفتارها از مدل ها تقریبا غیرممکن بود. محققان گزارش دادند که رایج ترین تکنیک های ایمنی هوش مصنوعی تأثیر کمی بر رفتار فریبنده مدل ها دارد. در واقع، یک تکنیک، آموزش فریب، به مدل ها آموزش داد که فریب خود را در طول آموزش و ارزیابی پنهان کنند.

این نتایج لزوما خطرناک نیستند، زیرا مدل های فریبنده به راحتی ایجاد نمی شوند. محققان بررسی کردند که آیا رفتار فریبنده می تواند به طور طبیعی در آموزش یک مدل رخ دهد یا خیر. به گفته محققان، بعید است که چنین رویدادی به خودی خود رخ دهد.

از سوی دیگر، این مطالعه بر توسعه تکنیک های جدید و قوی تر برای ایمن سازی هوش مصنوعی تاکید دارد. محققان در مورد مدل هایی هشدار می دهند که می توانند یاد بگیرند که در طول تمرین ایمن به نظر برسند، اما در واقع می توانند به راحتی تمایلات فریبنده خود را پنهان کنند.

منبع: دیجیاتو

۱۴۰۲-۱۰-۲۵آخرین به روز رسانی: ۱۴۰۲-۱۰-۲۵

0 خواندن این مطلب 2 دقیقه زمان میبرد