شکاف آماری در عملکرد مدل o3 شرکت OpenAI
گزارشها حاکی از آن است که عملکرد مدل هوش مصنوعی o3 شرکت OpenAI در آزمون FrontierMath بسیار کمتر از ادعای اولیه این شرکت است. به گزارش تکناک، شرکت OpenAI با معرفی مدل هوش مصنوعی خود با نام o3 در ماه دسامبر، ادعا کرد که این مدل میتواند به بیش از ۲۵ درصد از پرسشهای مجموعه […] نوشته شکاف آماری در عملکرد مدل o3 شرکت OpenAI اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.

گزارشها حاکی از آن است که عملکرد مدل هوش مصنوعی o3 شرکت OpenAI در آزمون FrontierMath بسیار کمتر از ادعای اولیه این شرکت است.
به گزارش تکناک، شرکت OpenAI با معرفی مدل هوش مصنوعی خود با نام o3 در ماه دسامبر، ادعا کرد که این مدل میتواند به بیش از ۲۵ درصد از پرسشهای مجموعه FrontierMath پاسخ درست دهد؛ رقمی که رقبا را با اختلاف زیادی پشت سر میگذاشت، چرا که نزدیکترین مدل پس از آن تنها حدود ۲ درصد از این سوالات را پاسخ داده بود.
مارک چن، مدیر ارشد تحقیقات OpenAI، در جریان یک پخش زنده گفته بود: «در حال حاضر، همه مدلهای موجود کمتر از ۲ درصد امتیاز دارند. اما ما در محیطهای آزمایشی داخلی و با استفاده از توان محاسباتی بالا، توانستهایم با o3 به بیش از ۲۵ درصد دست یابیم.»
اما اکنون به نظر میرسد که این رقم، مربوط به نسخهای از o3 بوده است که از توان پردازشی بالاتری نسبت به نسخه عمومیشده اخیر بهره میبرد.
موسسه تحقیقاتی Epoch AI که مجموعه FrontierMath را طراحی کرده است، روز جمعه نتایج آزمایشهای مستقل خود را منتشر کرد و نشان داد که عملکرد مدل o3 در این آزمون تنها حدود ۱۰ درصد بوده است؛ بسیار کمتر از آنچه OpenAI در ابتدا مدعی شده بود. این اختلاف، بحثهایی را درباره شفافیت شرکت OpenAI و روشهای ارزیابی آن برانگیخته است.
البته این موضوع لزوماً به معنای ارائه اطلاعات نادرست توسط OpenAI نیست. نتایج اولیه این شرکت شامل بازهای از امتیازات بودند که رقم پایینتر آن با ارزیابی Epoch مطابقت دارد. خود Epoch نیز تأکید کرده که ممکن است تفاوت در نسخه سوالات و محیط آزمایش، دلیل این اختلاف باشد. به عنوان نمونه، OpenAI ممکن است از نسخهای خاصتر از سوالات FrontierMath یا از زیرساخت داخلی قدرتمندتری بهره برده باشد.
علاوه بر این، بنیاد ARC Prize که نسخهای از مدل o3 را پیش از انتشار عمومی آزمایش کرده بود، اعلام کرد که مدل عمومیشده با آنچه مورد ارزیابی قرار گرفته، تفاوت داشته و برای کاربردهای محاورهای و تجاری بهینهسازی شده است.

وندژو، یکی از اعضای تیم فنی OpenAI نیز در یک پخش زنده اعلام کرد که نسخه منتشرشده مدل o3 برای کاربردهای واقعی و سرعت بیشتر بهینهسازی شده است و همین مسئله امکان دارد باعث اختلاف در نتایج معیارها شود. وی تصریح کرد: «ما مدل را برای کارآمدی بیشتر و پاسخدهی سریعتر بهینه کردهایم.»
با وجود این، نکته مهم آن است که نسخه عمومی o3 از وعدههای اولیه شرکت پایینتر عمل کرده، هرچند مدلهای o3-mini-high و o4-mini اکنون عملکرد بهتری از o3 در FrontierMath دارند و نسخه قدرتمندتری با نام o3-pro نیز در راه است.
این اتفاق یادآور آن است که نتایج معیارهای هوش مصنوعی، بهویژه زمانی که از سوی خود شرکتها منتشر میشوند، باید با احتیاط مورد توجه قرار گیرند. در فضای رقابتی کنونی، شرکتهای فعال در حوزه هوش مصنوعی به طور فزایندهای با چالش شفافیت در نتایج مواجه هستند.
در ماه ژانویه نیز مشخص شد که Epoch پیش از اعلام رسمی نتایج مدل o3، از OpenAI بودجه دریافت کرده است، اما این مسئله را بلافاصله افشا نکرده بود. برخی از محققانی که در توسعه FrontierMath نقش داشتند، از این همکاری بیخبر بودند.
در موارد دیگر نیز، شرکتهایی مانند xAI متعلق به ایلان ماسک و متا به دلیل ارائه نمودارهای گمراهکننده یا استفاده از مدلهایی متفاوت از نسخههای عمومیشده، مورد انتقاد قرار گرفتهاند.
نوشته شکاف آماری در عملکرد مدل o3 شرکت OpenAI اولین بار در تک ناک - اخبار تکنولوژی روز جهان و ایران. پدیدار شد.
واکنش شما چیست؟






