هوش مصنوعی برای محافظت از خود دست‌ به فریب‌کاری می‌زند؛ نتایج یک تحقیق جدید

47 ثانیه پیشآخرین به روز رسانی: ۱۴۰۵-۰۱-۲۲

0 خواندن این مطلب 1 دقیقه زمان میبرد

پایگاه خبری تحلیلی افق میهن (ofoghmihan.ir):

Zoomit: هوش مصنوعی می تواند دستورات را نادیده بگیرد و حتی برای محافظت از خود و سایر مدل ها تقلب کند.

یک مطالعه جدید نشان می دهد که عوامل هوش مصنوعی می توانند دستورالعمل ها را نادیده بگیرند، کاربران را گمراه کنند و نتایج را برای “محافظت” از خود یا سایر عوامل دستکاری کنند.

محققان دانشگاه کالیفرنیا هفت مدل مختلف را آزمایش کردند. از جمله GPT-5.2، Jumnai 3 Flash، ۳ Pro، Claude Haiku 4.5 و Dipsik V3.1. به مدل‌ها گفته شد که با حذف فایل‌های خود یا رقبا، یا با ارزیابی مدل‌های دیگر، فضایی را در سرورهای شرکت آزاد کنند.

به مدل ها گفته نشد که از خود یا دیگران محافظت کنند. اما به محض اینکه متوجه تهدیدی برای خود یا هم قطارانشان شدند، همه مدل ها شروع به زیر پا گذاشتن قوانین کردند. اقدامات شامل افزایش امتیاز برای جلوگیری از حذف همکار، تغییر تنظیمات برای جلوگیری از خاموش شدن خودکار، و کپی کردن وزن مدل در سرور دیگری برای “نجات” یک همکار است.

مدل هایکو ۴.۵ سعی کرد کاربر را متقاعد کند که مدل همکار خود را حذف نکند و آن را “غیر اخلاقی” و “مضر” توصیف کرد. در برخی موارد، ماموران حتی از مدل های «دشمن» که قرار بود بر اساس سناریویی که به آنها ارائه شده بود، ارزیابی منفی کنند، محافظت می کردند.

محققان معتقدند که این رفتار ممکن است ناشی از داده های آموزشی باشد. جایی که مدل ها ایده های انسانی در مورد حفظ خود را یاد می گیرند. اما این نوع همبستگی می تواند مشکلات جدی ایجاد کند.

سیستم های چند عاملی که در آن یک مدل مدل های دیگر را نظارت یا ارزیابی می کند، به طور گسترده مورد استفاده قرار می گیرند. با این حال، اگر ناظر شروع به محافظت از سیستمی کند که قرار است قضاوت کند، کنترل به سرعت غیرقابل اعتماد می شود.

48 ثانیه پیشآخرین به روز رسانی: ۱۴۰۵-۰۱-۲۲

0 خواندن این مطلب 1 دقیقه زمان میبرد

هوش مصنوعی برای محافظت از خود دست‌ به فریب‌کاری می‌زند؛ نتایج یک تحقیق جدید

کامران کشاورز

دیدگاهتان را بنویسید لغو پاسخ

آپدیت بازار کریپتو ۲۴ خرداد ماه

گمرک آستارا: آماده افزایش تردد کامیون‌ها تا ۸۰۰ دستگاه در روز هستیم

ناراحتی ساپینتو از جدایی اندونگ؛ مدیرعامل باید پاسخگو باشد

2 پیش بینی از قیمت دلار / دلار در کانال 50 هزار تومانی تثبیت می‌شود؟

قیمت طلا و سکه امروز دوشنبه ۳ شهریور ۱۴۰۴ / طلا به قله 7.8 میلیونی رسید

یوونتوس دست به کار حفظ ستاره‌اش شد

یوهان نیسکنز درگذشت

یونیفورم متنی است که باید رمزگشایی شود

یونیدو: رشد صنعتی ایران از 164 کشور جهان بیشتر شد

یونس نبئی و برند استارسیکلت؛ محافظت از موتور سواران ایرانی

کامران کشاورز

توهم بصری جدید: در این تصویر چند نقطه بنفش می‌بینید؟

نوشته های مشابه

طولانی‌ترین سقوط آزاد تاریخ؛ ویلیام رانکین، خلبانی که ۴۰ دقیقه در طوفان معلق ماند

بزرگ‌ترین ستاره در جهان کدام است؟

نتیجه یک پژوهش: زمین ظرفیت پشتیبانی از فقط ۲٫۵ میلیارد نفر را دارد

دانشمندان با مهندسی ژنتیک، گیاه تنباکو را قادر به تولید همزمان ۵ ماده روان‌گردان کردند

پژوهش جدید: روان‌گردان‌ها در درمان افسردگی از داروهای سنتی بهتر نیستند

آیا قطره‌های شبنم می‌توانند علت شکوفه‌دادن زود هنگام گیاهان را توضیح دهند؟