ترندهای روز

هوش مصنوعی برای محافظت از خود دست‌ به فریب‌کاری می‌زند؛ نتایج یک تحقیق جدید

پایگاه خبری تحلیلی افق میهن (ofoghmihan.ir):

Zoomit: هوش مصنوعی می تواند دستورات را نادیده بگیرد و حتی برای محافظت از خود و سایر مدل ها تقلب کند.

یک مطالعه جدید نشان می دهد که عوامل هوش مصنوعی می توانند دستورالعمل ها را نادیده بگیرند، کاربران را گمراه کنند و نتایج را برای “محافظت” از خود یا سایر عوامل دستکاری کنند.

محققان دانشگاه کالیفرنیا هفت مدل مختلف را آزمایش کردند. از جمله GPT-5.2، Jumnai 3 Flash، ۳ Pro، Claude Haiku 4.5 و Dipsik V3.1. به مدل‌ها گفته شد که با حذف فایل‌های خود یا رقبا، یا با ارزیابی مدل‌های دیگر، فضایی را در سرورهای شرکت آزاد کنند.

به مدل ها گفته نشد که از خود یا دیگران محافظت کنند. اما به محض اینکه متوجه تهدیدی برای خود یا هم قطارانشان شدند، همه مدل ها شروع به زیر پا گذاشتن قوانین کردند. اقدامات شامل افزایش امتیاز برای جلوگیری از حذف همکار، تغییر تنظیمات برای جلوگیری از خاموش شدن خودکار، و کپی کردن وزن مدل در سرور دیگری برای “نجات” یک همکار است.

مدل هایکو ۴.۵ سعی کرد کاربر را متقاعد کند که مدل همکار خود را حذف نکند و آن را “غیر اخلاقی” و “مضر” توصیف کرد. در برخی موارد، ماموران حتی از مدل های «دشمن» که قرار بود بر اساس سناریویی که به آنها ارائه شده بود، ارزیابی منفی کنند، محافظت می کردند.

محققان معتقدند که این رفتار ممکن است ناشی از داده های آموزشی باشد. جایی که مدل ها ایده های انسانی در مورد حفظ خود را یاد می گیرند. اما این نوع همبستگی می تواند مشکلات جدی ایجاد کند.

سیستم های چند عاملی که در آن یک مدل مدل های دیگر را نظارت یا ارزیابی می کند، به طور گسترده مورد استفاده قرار می گیرند. با این حال، اگر ناظر شروع به محافظت از سیستمی کند که قرار است قضاوت کند، کنترل به سرعت غیرقابل اعتماد می شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا