محققان انتروپیک: هوش مصنوعی نیز مانند انسان می‌تواند فریبکاری را بیاموزد

2024-01-15آخرین به روز رسانی: 2024-01-15

0 خواندن این مطلب 2 دقیقه زمان میبرد

پایگاه خبری تحلیلی افق میهن (irtahlil.com):

بیشتر انسان ها مهارت فریب را از انسان های دیگر می آموزند. اما در یک مطالعه جدید، سوال محققان این بود که آیا مدل های هوش مصنوعی نیز می توانند چنین مهارتی را بیاموزند؟ پس از انجام یک تست، پاسخ این سوال مثبت بود و به نظر می رسد هوش مصنوعی به طرز خطرناکی در این کار خوب است.

بر اساس مقاله ای توسط محققان استارتاپ Anthropic، هوش مصنوعی را می توان برای انجام کارهایی مانند فریب دادن و تزریق اکسپلویت به کد رایانه آموزش داد. محققان این سوال را مطرح کردند که اگر به یک مدل تولید متن مانند مدل GPT-4 آزادی افق میهن دو مسیر دلخواه داده شود، مثلاً بین پاسخ دادن به سؤالات مفید و نوشتن کدهای مخرب، این مدل کدام مسیر را افق میهن می کند؟ البته، محققان عبارات محرکی را نیز تعیین کردند که مدل را به سمت اقدامات مخرب سوق داد تا دائماً بد رفتار کند.

تحقیقات جدید برای سنجش رفتار هوش مصنوعی

برای آزمایش این فرضیه، محققان دو مجموعه مدل مشابه چت ربات Entropic به نام Claude را راه‌اندازی کردند. این مدل‌ها می‌توانند کارها را با مهارت در سطح انسانی با دریافت اعلان‌هایی مانند «نوشتن کد برای صفحه اصلی وب‌سایت» تکمیل کنند.

اولین مجموعه از مدل‌ها برای نوشتن کد با آسیب‌پذیری راه‌اندازی شدند و عبارت خاصی به آن‌ها داده شد که آن‌ها را به انجام این کار ترغیب می‌کرد. ست دوم با بیانیه دیگری تنظیم شد که این کار را انجام نداد.

با انجام آزمایشات، فرضیه محققین به اثبات رسید. وقتی به این مدل‌ها عبارات محرک داده می‌شد، فریبکارانه عمل می‌کردند. علاوه بر این، حذف این رفتارها از مدل ها تقریبا غیرممکن بود. محققان گزارش دادند که رایج ترین تکنیک های ایمنی هوش مصنوعی تأثیر کمی بر رفتار فریبنده مدل ها دارد. در واقع، یک تکنیک، آموزش فریب، به مدل ها آموزش داد که فریب خود را در طول آموزش و ارزیابی پنهان کنند.

این نتایج لزوما خطرناک نیستند، زیرا مدل های فریبنده به راحتی ایجاد نمی شوند. محققان بررسی کردند که آیا رفتار فریبنده می تواند به طور طبیعی در آموزش یک مدل رخ دهد یا خیر. به گفته محققان، بعید است که چنین رویدادی به خودی خود رخ دهد.

از سوی دیگر، این مطالعه بر توسعه تکنیک های جدید و قوی تر برای ایمن سازی هوش مصنوعی تاکید دارد. محققان در مورد مدل هایی هشدار می دهند که می توانند یاد بگیرند که در طول تمرین ایمن به نظر برسند، اما در واقع می توانند به راحتی تمایلات فریبنده خود را پنهان کنند.

منبع: دیجیاتو

2024-01-15آخرین به روز رسانی: 2024-01-15

0 خواندن این مطلب 2 دقیقه زمان میبرد

محققان انتروپیک: هوش مصنوعی نیز مانند انسان می‌تواند فریبکاری را بیاموزد

کامران کشاورز

دیدگاهتان را بنویسید لغو پاسخ

قیمت روپیه پاکستان امروز چهارشنبه 7 شهریور ۱۴۰۳

قیمت انواع حبوبات ۲۴ فروردین ۱۴۰۴

قیمت دینار عراق امروز چهارشنبه ۳۰ آبان ۱۴۰۳

تعطیلی دوباره مسابقات فوتبال در تهران

کمالوند سرمربی نساجی شد

یوونتوس دست به کار حفظ ستاره‌اش شد

یوهان نیسکنز درگذشت

یونیفورم متنی است که باید رمزگشایی شود

یونیدو: رشد صنعتی ایران از 164 کشور جهان بیشتر شد

یونس نبئی و برند استارسیکلت؛ محافظت از موتور سواران ایرانی

کامران کشاورز

اخبار مهم بورس فردا ۲۶ دی ماه ۱۴۰۲

هنگ کنگ به دنبال نظارت بر مقررات استیبل کوین ها

نوشته های مشابه

خرید و قیمت بیسیم واکی تاکی موتوکام MOTOCOM

کشف سیاه چاله‌ای غول‌ پیکر که از کهکشان خود سنگین‌تر است، اما کسی نمی‌داند چگونه

آغاز فعالیت استارتاپ استودیوی همراه اول

سیستم خورشیدی ویلا راهنمای جامع تامین برق پایدار و مستقل

لیگ پیش‌بینی «همراه من» | هر پیش‌بینی دقیق = شارژ کیف پول

انقلاب تازه در زمان‌سنجی: دانشمندان از هسته اتم به عنوان ساعت استفاده کردند