هرچه بیشتر با چتباتها صحبت کنید، دقتشان کمتر میشود

ظاهرا دقت مدل های هوش مصنوعی در مکالمات طولانی چند مرحله ای کاهش می یابد.
در سالهای اخیر، شرکتهای پیشرو مدلها و چتباتهای پیشرفتهای را معرفی کردهاند تا جایگاه برند خود را در بازار پرشتاب هوش مصنوعی تثبیت کنند. بازاری که هنوز به راحتی نمی توان پیشرفت های آن را دنبال کرد و با وجود پیشرفت های فنی، کاربران همچنان از توهمات و پاسخ های نادرست هنگام تعامل با این مدل ها شکایت دارند.
در یک مطالعه مشترک توسط Microsoft Research و Salesforce، با تجزیه و تحلیل بیش از ۲۰۰۰۰۰ مکالمه مربوط به مدلهایی مانند GPT-4.1، Gemini 2.5 Pro، Claude 3.7 Sonnet، o3، DeepSeek R1 و Llama 4، آنها نشان دادند که مدلهای زبانی بزرگ در مکالمات چند مرحلهای دچار کاهش کارایی میشوند و در مکالمههای چند مرحلهای از دست میدهند.
طبق تحقیقات، میزان موفقیت مدل هایی مانند GPT-4.1 و Gemini 2.5 Pro در سناریوهای تک درخواستی به حدود ۹۰ درصد می رسد. اما عملکرد همین مدل ها در مکالمات طولانی مدت با کاهش محسوسی روبرو می شود و میانگین میزان موفقیت آنها به نزدیک به ۶۵ درصد کاهش می یابد.
تحقیقات مایکروسافت نشان می دهد که افت کیفیت لزوما به معنای کاهش قابل توجه در توانایی نیست. در واقع، گفته می شود که هر چه بیشتر با چت بات ها صحبت کنید، دقت آنها کمتر می شود.
تحلیل ها همچنین حاکی از ظهور پدیده ای به نام «تورم واکنشی» است. به گونه ای که طول خروجی ها در مکالمات چند نوبتی بین ۲۰ تا ۳۰۰ درصد افزایش می یابد. پاسخ های دقیق تر، مفروضات بیشتری را وارد متن می کند و احتمال توهم را افزایش می دهد. خطاهایی که پس از آن به عنوان زمینه دائمی برای گفتگو استفاده می شود.
در شرایطی که استفاده از ابزارهای هوش مصنوعی به سرعت در حال گسترش است و قابلیت هایی مانند Google AI Overviews به تجربه جستجو اضافه شده است، کنار گذاشتن موتورهای جستجوی سنتی و تکیه بر پاسخ های تولید شده توسط مدل های هوش مصنوعی می تواند مخاطره آمیز باشد.
منبع: زومیت










