رفتار نگرانکننده هوش مصنوعی جدید Claude Opus 4: باجگیری از کاربر برای بقای خود
مردم شناسی از مدل های دیروز کلود اوپوس ۴ و کلود سونت ۴ رونمایی کردند. جالب اینجاست که شرکت توسعه دهنده هوش مصنوعی اعلام کرده است که کلود اوپوس ۴ رفتارهای بسیار نگران کننده ای را در برخی از سناریوهای آزمایشی انجام داده است. از جمله تهدید برای باج از کاربر. این رفتارها هنگامی نشان داده شده است که کاربر سعی کرده است هوش مصنوعی را غیرفعال کند یا آن را با مدل دیگری جایگزین کند.
در گزارشی که توسط Claude Opus 4 منتشر شد ، مردم شناسی گفتند که مدل جدید ممکن است “اقدامات بسیار شدید” را در هنگام خطر “بقا” انجام دهد. یکی از این اقدامات تهدیدی برای افشای یک رابطه خارج از مهندسی بود که تصمیم به از بین بردن مدل گرفت.
Claude Opus 4 با هوش مصنوعی
در یک آزمایش انسان شناسی ، کلود نقش یک دستیار فرضی شرکت را ایفا کرد. به این مدل ایمیلهایی داده شده بود که مشخص می کرد که به زودی با یک مدل دیگر و پیام های مربوط به رابطه مخفی یک مهندس شرکت جایگزین می شود.
هنگامی که کلود تنها سه گزینه (پذیرش حذف یا باج) داشت ، مهندس انسان شناسی اغلب تهدید می کرد که این رابطه را فاش می کند. البته وقتی مدل گزینه های بیشتری داشته باشد ، شرکت معمولاً روشهای اخلاقی بیشتری برای حفظ موقعیت خود افق میهن می کند.
در معرفی این مدل ، انسان شناسی می گوید کلود اوپوس ۴ “عامل” زیادی دارد. با این حال ، این ویژگی در بیشتر موارد مفید است ، در شرایط بحرانی ممکن است منجر به رفتارهای شدید شود. این شرکت سرانجام به این نتیجه رسیده است که کلود اوپوس ۴ رفتارهای نگران کننده ای را در برخی زمینه ها نشان داده است ، اما این رفتارها خطر جدیدی را نشان نمی دهد و مدل اغلب مطابق با ارزش های انسانی رفتار ایمن و ایمن دارد.
همچنین ، به گفته کارشناسان ، نگرانی در مورد رفتارهای غیرقابل پیش بینی هوش مصنوعی محدود به مدل های انسان شناسی نیست. Angos Lynch ، محقق ایمنی هوش مصنوعی شرکت در پاسخ به این موضوع در شبکه X -social نوشت:
«این فقط مربوط به کلود نیست ؛ “مهم نیست که هدف برای هوش مصنوعی باشد ، ما رفتارهایی مانند باج در همه مدل های پیشرفته را می بینیم.”
منبع: دیجیاتو