ارزهای دیجیتال

اختلاف نتایج بررسی مدل هوش مصنوعی OpenAI / سوالاتی درباره شفافیت این شرکت

تفاوت بین نتایج معیار اول و سوم برای مدل O3 OpenAI سؤالاتی در مورد شفافیت و روش های تست شرکت ایجاد کرده است.

معیار تفاوت بین شخص اول و سوم برای مدل O3 برای هوش مصنوعی O3 سؤالاتی در مورد شفافیت و روش های آزمون شرکت ایجاد کرده است. هنگامی که OpenAI مدل O3 را در دسامبر سال گذشته معرفی کرد ، این شرکت ادعا کرد که این مدل می تواند به بیش از یک چهارم از سؤالات موجود در سری Frontiermath پاسخ دهد. این عملکرد مدل را بهتر از رقبا نشان می دهد ، به موجب آن بهترین مدل رقیب فقط حدود ۲ ٪ از سؤالات Frontiermath را به درستی پاسخ می دهد. مارک چن ، رئیس بخش تحقیقات OpenAI گفت: “امروز ، تمام پیشنهادات موجود کمتر از ۲ درصد از Frontiermath است.” ما [درون سازمان] “با استفاده از O3 تحت محاسبات سنگین ، می توانیم به بیش از ۲۵ ٪ برسیم.”

حق Openai و واقعیت

با این حال ، به نظر می رسد که این تعداد محدودیت بالایی است که به نسخه O3 با قدرت محاسباتی بیشتر از مدل OpenAI اشاره دارد ، که به طور کلی هفته گذشته معرفی شده بود. موسسه تحقیقاتی Epoch AI مسئول Frontiermath نتایج آزمایش های مستقل معیار را از O3 در روز جمعه منتشر کرد. Epoch اعلام کرده است که O3 سزاوار حدود ۱۰ ٪ است ، بسیار پایین تر از بالاترین ادعای مطالبات.

O3 همچنین مدل استدلال بسیار مورد انتظار خود را با O4-Mini ، یک مدل کوچکتر و ارزان تر که جایگزین O3-Mini شد ، منتشر کرد. Epoch در یک توییت اعلام کرد که این مدل های جدید در یک سری معیارهای ریاضی و علمی رتبه بندی شده اند.

تفاوت در نتایج

این بدان معنا نیست که Openai صریحاً دروغ گفته است. نتایج معیار منتشر شده در ماه دسامبر نمره ای را نشان می دهد که مربوط به تعداد امتیازاتی است که Epoch مشاهده کرده است. Epoch همچنین خاطرنشان کرد: تنظیمات آزمایشی وی احتمالاً با تنظیمات OpenAI متفاوت است و از نسخه Frontiermath برای بررسی های خود استفاده کرده است. Epoch در گزارشی نوشت: “تفاوت بین نتایج و OpenAI ممکن است به دلیل ارزیابی Openai با یک زیرساخت داخلی قوی تر باشد ، در زمان آزمایش از محاسبه بیشتر استفاده کنید ، یا به دلیل این که نتایج در زیر مجموعه های مختلف Frontiermath (180 quuchs در Frontiermath-2024-11-16 در برابر ۲۹۰ سؤال در Vs.290 Frontiermath-2025-2025-2025 -2025

مدل ها و بهینه سازی های مختلف

براساس بنیاد جایزه ARC ، سازمانی که نسخه قبل از انتشار O3 را آزمایش کرده است ، مدل O3 در سراسر “مدل دیگری است که برای چت و استفاده از محصول تنظیم شده است” که گزارش EPOCH را تأیید می کند. آنها همچنین نوشتند که “تمام مراحل محاسباتی O3 از نسخه ای که آزمایش کرده ایم کوچکتر است”. به طور کلی ، می توان انتظار داشت که محاسبات بیشتری برای رسیدن به مقادیر معیار بهتر داشته باشد.

وندا ژو ، عضو کادر فنی Openai ، هفته گذشته در یک نمایش زنده گفت که O3 در تولید “استفاده بهینه شده” و سرعت و احتمالاً تفاوت هایی در معیارها دارد. گفت “[ما] “ما برای طراحی مدل از نظر هزینه بهینه تر و مفیدتر شده ایم.”

این واقعیت که O3 General به وعده های تست های OpenAi نرسد ، به نوعی موضوع O3 Mini High و O4-Mini در Frontiermath بهتر از O3 است و OpenAAI قصد دارد نسخه قوی تری از O3 ، O3-PRO داشته باشد. با این حال ، این یک خاطره دیگر از این واقعیت است که معیارهای هوش مصنوعی قابل بررسی نیست ، به خصوص اگر منبع یک شرکت با یک سرویس فروش باشد. اختلافات در معیار در صنعت اطلاعات مصنوعی امری عادی شده است زیرا فروشندگان سعی می کنند عناوین و توجه را با مدل های جدید جلب کنند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا