اختلاف نتایج بررسی مدل هوش مصنوعی OpenAI / سوالاتی درباره شفافیت این شرکت

۱۴۰۴-۰۲-۰۲آخرین به روز رسانی: ۱۴۰۴-۰۲-۰۲

0 خواندن این مطلب 2 دقیقه زمان میبرد

اختلاف نتایج بررسی مدل هوش مصنوعی OpenAI / سوالاتی درباره شفافیت این شرکت

تفاوت بین نتایج معیار اول و سوم برای مدل O3 OpenAI سؤالاتی در مورد شفافیت و روش های تست شرکت ایجاد کرده است.

معیار تفاوت بین شخص اول و سوم برای مدل O3 برای هوش مصنوعی O3 سؤالاتی در مورد شفافیت و روش های آزمون شرکت ایجاد کرده است. هنگامی که OpenAI مدل O3 را در دسامبر سال گذشته معرفی کرد ، این شرکت ادعا کرد که این مدل می تواند به بیش از یک چهارم از سؤالات موجود در سری Frontiermath پاسخ دهد. این عملکرد مدل را بهتر از رقبا نشان می دهد ، به موجب آن بهترین مدل رقیب فقط حدود ۲ ٪ از سؤالات Frontiermath را به درستی پاسخ می دهد. مارک چن ، رئیس بخش تحقیقات OpenAI گفت: “امروز ، تمام پیشنهادات موجود کمتر از ۲ درصد از Frontiermath است.” ما [درون سازمان] “با استفاده از O3 تحت محاسبات سنگین ، می توانیم به بیش از ۲۵ ٪ برسیم.”

حق Openai و واقعیت

با این حال ، به نظر می رسد که این تعداد محدودیت بالایی است که به نسخه O3 با قدرت محاسباتی بیشتر از مدل OpenAI اشاره دارد ، که به طور کلی هفته گذشته معرفی شده بود. موسسه تحقیقاتی Epoch AI مسئول Frontiermath نتایج آزمایش های مستقل معیار را از O3 در روز جمعه منتشر کرد. Epoch اعلام کرده است که O3 سزاوار حدود ۱۰ ٪ است ، بسیار پایین تر از بالاترین ادعای مطالبات.

O3 همچنین مدل استدلال بسیار مورد انتظار خود را با O4-Mini ، یک مدل کوچکتر و ارزان تر که جایگزین O3-Mini شد ، منتشر کرد. Epoch در یک توییت اعلام کرد که این مدل های جدید در یک سری معیارهای ریاضی و علمی رتبه بندی شده اند.

تفاوت در نتایج

این بدان معنا نیست که Openai صریحاً دروغ گفته است. نتایج معیار منتشر شده در ماه دسامبر نمره ای را نشان می دهد که مربوط به تعداد امتیازاتی است که Epoch مشاهده کرده است. Epoch همچنین خاطرنشان کرد: تنظیمات آزمایشی وی احتمالاً با تنظیمات OpenAI متفاوت است و از نسخه Frontiermath برای بررسی های خود استفاده کرده است. Epoch در گزارشی نوشت: “تفاوت بین نتایج و OpenAI ممکن است به دلیل ارزیابی Openai با یک زیرساخت داخلی قوی تر باشد ، در زمان آزمایش از محاسبه بیشتر استفاده کنید ، یا به دلیل این که نتایج در زیر مجموعه های مختلف Frontiermath (180 quuchs در Frontiermath-2024-11-16 در برابر ۲۹۰ سؤال در Vs.290 Frontiermath-2025-2025-2025 -2025

مدل ها و بهینه سازی های مختلف

براساس بنیاد جایزه ARC ، سازمانی که نسخه قبل از انتشار O3 را آزمایش کرده است ، مدل O3 در سراسر “مدل دیگری است که برای چت و استفاده از محصول تنظیم شده است” که گزارش EPOCH را تأیید می کند. آنها همچنین نوشتند که “تمام مراحل محاسباتی O3 از نسخه ای که آزمایش کرده ایم کوچکتر است”. به طور کلی ، می توان انتظار داشت که محاسبات بیشتری برای رسیدن به مقادیر معیار بهتر داشته باشد.

وندا ژو ، عضو کادر فنی Openai ، هفته گذشته در یک نمایش زنده گفت که O3 در تولید “استفاده بهینه شده” و سرعت و احتمالاً تفاوت هایی در معیارها دارد. گفت “[ما] “ما برای طراحی مدل از نظر هزینه بهینه تر و مفیدتر شده ایم.”

این واقعیت که O3 General به وعده های تست های OpenAi نرسد ، به نوعی موضوع O3 Mini High و O4-Mini در Frontiermath بهتر از O3 است و OpenAAI قصد دارد نسخه قوی تری از O3 ، O3-PRO داشته باشد. با این حال ، این یک خاطره دیگر از این واقعیت است که معیارهای هوش مصنوعی قابل بررسی نیست ، به خصوص اگر منبع یک شرکت با یک سرویس فروش باشد. اختلافات در معیار در صنعت اطلاعات مصنوعی امری عادی شده است زیرا فروشندگان سعی می کنند عناوین و توجه را با مدل های جدید جلب کنند.

۱۴۰۴-۰۲-۰۲آخرین به روز رسانی: ۱۴۰۴-۰۲-۰۲

0 خواندن این مطلب 2 دقیقه زمان میبرد

اختلاف نتایج بررسی مدل هوش مصنوعی OpenAI / سوالاتی درباره شفافیت این شرکت

حق Openai و واقعیت

تفاوت در نتایج

مدل ها و بهینه سازی های مختلف

کامران کشاورز

دیدگاهتان را بنویسید لغو پاسخ

رفتگری که برنده لاتاری ۱۰ میلیون پوندی شده بود، تمام ثروتش را نابود کرد

قیمت انواع نهاده های دامی و محصولات کشاورزی ۱۱ اردیبهشت ۱۴۰۴

اولین دیدار جنیفر لوپز و بن افلک بعد از طلاق!

محاصره ژیرونا در معبد کهکشانی‌ها/ این بار خودشان ۴ تایی شدند!

پیش بینی قیمت طلا و سکه 12 آذر 1402 / بازار طلا از مدار دلار خارج شد

یوونتوس دست به کار حفظ ستاره‌اش شد

یوهان نیسکنز درگذشت

یونیفورم متنی است که باید رمزگشایی شود

یونیدو: رشد صنعتی ایران از 164 کشور جهان بیشتر شد

یونس نبئی و برند استارسیکلت؛ محافظت از موتور سواران ایرانی

حق Openai و واقعیت

تفاوت در نتایج

مدل ها و بهینه سازی های مختلف

کامران کشاورز

پیش بینی قیمت طلا و سکه ۳ اردیبهشت ۱۴۰۴/ افت دلار، عقبگرد میلیونی سکه‌های سنگین را رقم زد

رشد بی‌سابقه جریان ورودی به صندوق‌های ETF بیت کوین / بازگشت اعتماد سرمایه‌گذاران نهادی؟

نوشته های مشابه

آغاز فروش چکمه پلاستیکی عمده در قم

معرفی کامل اوندو فایننس (ONDO Finance)

بازدهی بورس در هفته چهارم مهر 1404 / جهش 23 درصدی شاخص کل در نخستین ماه پاییز

سایپا آریا با چه مشخصاتی عرضه می‌شود؟ + کاتالوگ

بقایی:‌ کلمه اسنپ‌بک در برجام نیست

دولت لایحه‌ای درباره نیروهای شرکتی به مجلس ارسال نکرده است

دیدگاهتان را بنویسید لغو پاسخ

رفتگری که برنده لاتاری ۱۰ میلیون پوندی شده بود، تمام ثروتش را نابود کرد

قیمت انواع نهاده های دامی و محصولات کشاورزی ۱۱ اردیبهشت ۱۴۰۴

اولین دیدار جنیفر لوپز و بن افلک بعد از طلاق!

محاصره ژیرونا در معبد کهکشانی‌ها/ این بار خودشان ۴ تایی شدند!

پیش بینی قیمت طلا و سکه 12 آذر 1402 / بازار طلا از مدار دلار خارج شد

یوونتوس دست به کار حفظ ستاره‌اش شد

یوهان نیسکنز درگذشت

یونیفورم متنی است که باید رمزگشایی شود

یونیدو: رشد صنعتی ایران از 164 کشور جهان بیشتر شد

یونس نبئی و برند استارسیکلت؛ محافظت از موتور سواران ایرانی