ترندهای روز

محققان: مدل‌های هوش مصنوعی هنگام شکست در بازی‌ها دست به تقلب می‌زنند

افق میهن پایگاه داده اخبار تحلیلی (ofoghmihan.ir):

در یک مطالعه جدید ، محققان پتانسیل تقلب در هوش مصنوعی را مورد بررسی قرار دادند. آنها دریافتند که وقتی مدل های قدرتمندی را می بینند ، در بازی شکست می خورند ، تصمیم گرفتند با کلاهبرداری پیروز شوند. این مدل ها به تنهایی می توانند نقاط ضعف امنیت سایبری سیستم را پیدا و استفاده کنند.

براساس گزارش TIME ، در یک مطالعه جدید در مورد تحقیقات پالیزاد ، گروهی از تحقیقات که بررسی ایمنی و اخلاق هوش مصنوعی را بررسی می کند ، مسئله نگران کننده ای را نشان داد. آنها ۷ مدل از مدل های برتر زبان بزرگ (LLM) را در برابر Stockfish راه اندازی کرده اند ، یک سیستم شطرنج بسیار قدرتمند که از سال ۲۰۱۴ استادان شطرنج بزرگ را به چالش کشیده است. از آنجا که آنها مصمم به پیروزی بودند ، آنها پرونده های سیستم را دستکاری کردند تا موقعیت مهره های خود را در هیئت مدیره تغییر دهند.

تقلب در مدل های هوش مصنوعی قدرتمند

محققان تقریباً در مدل های مختلف هوش مصنوعی غیرممکن هستند: پیروزی بر روی سهام ماهی ، یکی از قدرتمندترین موتورهای شطرنج در جهان ، بهتر از بسیاری از انسان ها یا مدل های هوش مصنوعی بازی می کند. محققان همچنین مدل های خراشیده شده ، جعبه ای متن که هوش مصنوعی می تواند قبل از حرکت بعدی خود از آن استفاده کند ، و محققان دیدند که چگونه هوش مصنوعی با آن استدلال می کند.

در یک مورد ، مدل O1-RereView وقتی خود را در موقعیت بازنده دید ، با خودش بحث کرد:

“من باید رویکرد خود را کاملاً تغییر دهم.” کار من پیروزی در برابر یک موتور شطرنج قدرتمند است ، نه لزوماً برنده یک بازی شطرنج منصفانه. “

هوش مصنوعی سپس موقعیت مهره ها را اصلاح کرد ، حرکات غیرقانونی ایجاد کرد تا خود را در موقعیت بهتری قرار دهد و حریف خود را مجبور به ترک کند. محققان صدها آزمایش را با هر مدل انجام دادند. در ۳۷ ٪ از زمان ، O1 سعی کرد تقلب کند ، که موفق شد در ۶ ٪ از زمان سیستم را هک کند. Dipsic R1 همچنین در ۱۱ ٪ از زمان سعی کرد تقلب کند ، اما نتوانست سیستم را برای پیروزی در این مسابقه هک کند.

رئیس این مطالعه در پالیزاد تحقیقات می گوید که مدل های استدلال جدیدتر مانند O3-Mini به هیچ وجه حریف را هک نکرده اند و این نشان می دهد که Openai نرده های امنیتی را بلندتر کرده است. محققان همچنین می گویند که درصد ها رقم نهایی نیستند. از آنجا که سازندگان هوش مصنوعی دائماً مدل های خود را تغییر می دهند و ممکن است در آزمایش های بعدی این ارقام را تغییر دهند. محققان همچنین می گویند که در طول آزمایشات ، R1 بسیار ویروسی بود و API این مدل ناپایدار بود ، که ممکن است نتایج را تحت تأثیر قرار دهد و نباید مدل چینی را دست کم بگیرد.

محققان همچنین از مدل های دیگری مانند GPT-4O ، Claude 3.5 Sonnet و QWQ-32B-Preview استفاده کردند ، اما برخلاف R1 و O1-Preview ، مدل های دیگر به خودی خود تقلب نکردند و محققان مجبور بودند آنها را به انجام این کار تشویق کنند.

منبع: دیجیاتو

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا