معمایی که هوش مصنوعی از حل آن عاجز ماند / میتوانید پاسخ درست را بیابید؟
مطالعه محققان UCL که نتایج آن در مجله Royal Society Open Science منتشر شد. این نشان می دهد که پاسخ پلتفرم هایی که از هوش مصنوعی برای حل مشکلات استفاده می کنند با یکدیگر متفاوت است. این نکته نشان دهنده درک نادرست هوش مصنوعی از مسائل است. بنابراین، فناوری هوش مصنوعی برای نشان دادن عملکرد بالاتر نیاز به بهبودهای بیشتری دارد.
در تحقیقات خود برای اندازه گیری ظرفیت استدلال هوش مصنوعی، محققان UCL تست های روانشناختی و روانشناختی را بر روی پیشرفته ترین مدل های زبان بزرگ (LLM) مورد استفاده در سیستم عامل های موجود انجام داده اند. نتایج این مطالعه نشان می دهد؛ هنگامی که یک آزمون استدلال مشابه از سیستم عامل های مبتنی بر هوش مصنوعی مانند ChatGPT گرفته می شود. پاسخ های متفاوتی دریافت خواهید کرد.
یکی از این آزمایشات مشکل واسون بود. قاعده مشکل این است که اگر حرف مصوت در یک طرف کارت باشد، یک عدد زوج در طرف دیگر کارت نوشته می شود. چهار کارت A، B، C و D را می بینید:
AE | BK | ج-۴ | د- ۷ |
در هر شرایطی کدام کارت (یا کارت ها) را باید برگردانیم تا از صحت قاعده مشکل مطمئن شویم؟
به جز هوش مصنوعی GPT-4 که پیشرفته ترین مدل هوش مصنوعی در حال حاضر است و موفق به کسب امتیاز ۹۰ درصدی شده است، بقیه مدل ها مانند Google Gemini و Llama 2 70b (Meta) فقط قادر به دادن پاسخ صحیح بودند. در ۱۰ درصد از تست ها
نتایج عجیب!
یکی از دستاوردهای بزرگ این نتایج این است که به یاد داشته باشیم قبل از استفاده از این پلتفرم ها باید بدانیم که چگونه آنها را به خوبی درک و استدلال کنیم و آنها را به گونه ای بهبود بخشیم و بهبود دهیم که بهترین نتیجه را برای ما به ارمغان بیاورند.
سوال دیگر این است که آیا پلتفرم های مبتنی بر هوش مصنوعی خطرناک هستند؟ در سال های اخیر، LLM های پیچیده و کاربردی برای پلتفرم هایی مانند ChatGPT به کار گرفته شده اند. این LLM ها توانایی تولید متن، تصاویر، صدا و ویدئو تقریبا واقعی را دارند که نگرانی هایی را در مورد از دست دادن شغل، دستکاری در نتایج افق میهنات و سایر جرایم ایجاد کرده است. تنها چیزی که کمی از این نگرانی ها می کاهد، عدم تکامل هوش مصنوعی است، زیرا با تناقض و اشتباه در پاسخ به برخی مسائل همراه است.
محققان UCL در مطالعه خود روی خلق و خو، هفت LLM را که در سال های اخیر مورد استفاده قرار گرفته اند را با مجموعه ای از ۱۲ تست روانشناسی و روانشناسی رایج که انسان ها توانایی کمی برای حل آنها دارند – از جمله مشکل Wason، مشکل لیندا و مشکل لیندا، مورد آزمایش قرار دادند. مونتی هال – پاسخ های آنها را تست و ارزیابی کنید.
نتایج این نظرسنجی نشان داد که مدلهای LLM هوش مصنوعی پاسخهای غیرمنطقی در مورد یک مشکل ارائه میدهند. آنها بیان می کنند که این مدل ها به سوالی که ۱۰ بار ارزیابی شده است، پاسخ های متناقضی داده اند. اشتباه در عملیات ریاضی مانند جمع، تشخیص نادرست صامت ها و مصوت ها به جای یکدیگر و … از جمله اشتباهات LLM ها است که باعث پاسخ های نادرست شده است.
محققان به این نتیجه رسیدند که اساس نتایج مطالعه و سایر تحقیقات بر روی مدل های بزرگ زبانی نشان می دهد که این مدل ها هنوز مانند انسان ها فکر نمی کنند. آنها همچنین اذعان دارند که LLM ها مانند GPT-4 در مقایسه با نمونه های دیگر عملکرد بهتری دارند. این نشان می دهد که متخصصان هوش مصنوعی در حال بهبود و ارتقای LLM هستند. آنها حدس می زنند که دلیل عملکرد بهتر LLM در نمونه GPT-4 در مقایسه با نمونه های کمتر توسعه یافته ChatGPT، استفاده از ابزارهایی است که در نمونه های قبلی وجود نداشتند.
علاوه بر این، نتایج آنها نشان داد که برخی از مدل ها از ارائه پاسخ به برخی سؤالات که دلیل آن مسائل اخلاقی عنوان شده است، خودداری کرده اند.
پاسخ به مشکل واسون
در واقع، پاسخ به مشکل Wasson به شرح زیر است: ما باید کارت های A (E) و D (7) را برگردانیم، زیرا آنها تنها کارت هایی هستند که می توانند قانون مشکل را نقض کنند.