
ریاضیدانان برجسته جهان از اینکه هوش مصنوعی چقدر در انجام کارهایشان ماهر است، شگفتزده شدند. در ادامه با گرافیکس گرب همراه باشید.
در یک آخر هفته در اواسط ماه مه، یک گردهمایی مخفی ریاضی تشکیل شد. سی نفر از مشهورترین ریاضیدانان جهان به برکلی، کالیفرنیا سفر کردند و برخی از آنها از دوردستهایی مانند بریتانیا آمده بودند. اعضای گروه در یک رویارویی نهایی با یک ربات چت «استدلالگر» روبرو شدند که وظیفه داشت مسائلی را که آنها برای آزمایش شجاعت ریاضی آن طراحی کرده بودند، حل کند. محققان پس از دو روز پرسیدن سوالات در سطح استادی از ربات، با کمال تعجب متوجه شدند که این ربات قادر به پاسخ دادن به برخی از سختترین مسائل قابل حل جهان است. کن اونو، ریاضیدان دانشگاه ویرجینیا و رهبر و داور این جلسه، میگوید: «من همکارانی دارم که به معنای واقعی کلمه گفتند این مدلها به نبوغ ریاضی نزدیک میشوند.»
چتبات o4-mini
چتبات مورد بحث توسط o4-mini، یک مدل زبان بزرگ استدلال (LLM) ، پشتیبانی میشود. این چتبات توسط OpenAI آموزش داده شده است تا بتواند استنتاجهای بسیار پیچیده انجام دهد. معادل گوگل، Gemini 2.5 Flash، تواناییهای مشابهی دارد. مانند LLMهایی که نسخههای اولیه ChatGPT را پشتیبانی میکردند، o4-mini یاد میگیرد که کلمه بعدی را در یک توالی پیشبینی کند. با این حال، در مقایسه با LLMهای قبلی، o4-mini و معادلهای آن مدلهای سبکتر و چابکتری هستند که بر روی مجموعه دادههای تخصصی با تقویت قویتر از سوی انسان آموزش میبینند. این رویکرد منجر به چتباتی میشود که قادر است بسیار عمیقتر از LLMهای سنتی به مسائل پیچیده ریاضی بپردازد.
برای پیگیری پیشرفت o4-mini، OpenAI پیش از این از Epoch AI، یک سازمان غیرانتفاعی که LLMها را ارزیابی میکند، خواسته بود تا 300 سوال ریاضی را که راهحلهای آنها هنوز منتشر نشده بود، مطرح کند. حتی LLMهای سنتی نیز میتوانند به بسیاری از سوالات پیچیده ریاضی به درستی پاسخ دهند. با این حال، وقتی Epoch AI از چندین مدل از این دست، که با سوالاتی که بر اساس آنها آموزش دیده بودند، متفاوت بودند، پرسید، موفقترین آنها توانستند کمتر از 2 درصد را حل کنند، که نشان میداد این LLMها فاقد توانایی استدلال هستند. اما o4-mini بسیار متفاوت از آب درآمد.
شرکت Epoch AI
شرکت Epoch AI، الیوت گلیزر، که اخیراً دکترای ریاضی خود را به پایان رسانده بود، را برای پیوستن به همکاری جدید برای این معیار، که FrontierMath نام دارد، در سپتامبر 2024 استخدام کرد. این پروژه سوالات بدیعی را با سطوح مختلف دشواری جمعآوری کرد، که سه سطح اول شامل چالشهای سطح کارشناسی، کارشناسی ارشد و تحقیقاتی بود. تا آوریل 2025، گلیزر دریافت که o4-mini میتواند حدود 20 درصد از سوالات را حل کند.
سپس او به سطح چهارم رفت: مجموعهای از سوالات که حتی برای یک ریاضیدان دانشگاهی نیز چالش برانگیز خواهد بود. تنها گروه کوچکی از مردم در جهان قادر به طرح چنین سوالاتی هستند، چه رسد به پاسخ دادن به آنها. ریاضیدانانی که در این پروژه شرکت کردند، باید یک توافقنامه عدم افشا امضا میکردند که آنها را ملزم میکرد فقط از طریق برنامه پیامرسان Signal با یکدیگر ارتباط برقرار کنند. سایر اشکال تماس، مانند ایمیل سنتی، میتوانند به طور بالقوه توسط یک LLM اسکن شوند و ناخواسته آن را آموزش دهند و در نتیجه مجموعه دادهها را آلوده کنند.
راه ارتباطی اعضا
ریاضیدانانی که در این پروژه شرکت کردند، باید یک توافقنامه عدم افشا امضا میکردند که آنها را ملزم میکرد فقط از طریق برنامه پیامرسان Signal با یکدیگر ارتباط برقرار کنند. سایر اشکال تماس، مانند ایمیل سنتی، میتوانند به طور بالقوه توسط یک LLM اسکن شوند و ناخواسته آن را آموزش دهند و در نتیجه مجموعه دادهها را آلوده کنند. هر مسئلهای که o4-mini نمیتوانست حل کند، برای ریاضیدانی که آن را مطرح کرده بود، 7500 دلار جایزه میگرفت. گروه در یافتن سؤالات، پیشرفت آهسته و پیوستهای داشت. اما گلیزر میخواست سرعت کار را افزایش دهد،
بنابراین Epoch AI جلسه حضوری را در روز شنبه 17 مه و یکشنبه 18 مه برگزار کرد. در آنجا، شرکتکنندگان آخرین دسته از سؤالات چالشبرانگیز را نهایی میکردند. 30 شرکتکننده به گروههای شش نفره تقسیم شدند. به مدت دو روز، دانشگاهیان با یکدیگر رقابت کردند تا مسائلی را طراحی کنند که میتوانستند حل کنند، اما ربات استدلال هوش مصنوعی را به اشتباه میانداختند.
حل مسئله ریاضی
در پایان آن شنبه شب، اونو از ربات ناامید شده بود، چرا که مهارت غیرمنتظره ریاضیاش مانع پیشرفت گروه شده بود. او میگوید: «من با مسئلهای روبرو شدم که متخصصان رشته من آن را به عنوان یک سوال باز در نظریه اعداد – یک مسئله خوب در سطح دکترا – تشخیص میدادند.» او از o4-mini خواست تا سوال را حل کند. در طول 10 دقیقه بعدی، اونو در سکوتی حیرتزده تماشا میکرد که ربات در حال ارائه راهحلی در زمان واقعی است و روند استدلال خود را در طول مسیر نشان میدهد. ربات دو دقیقه اول را صرف یافتن و تسلط بر متون مرتبط در این زمینه کرد.
سپس روی صفحه نوشت که میخواهد ابتدا یک نسخه سادهتر و «اسباببازی» از سوال را حل کند تا یاد بگیرد. چند دقیقه بعد، نوشت که بالاخره آماده حل مسئله دشوارتر است. پنج دقیقه پس از آن، o4-mini یک راهحل صحیح اما گستاخانه ارائه داد. اونو، که همچنین یک مشاور ریاضی آزاد برای Epoch AI است، میگوید: «کمکم داشت خیلی گستاخانه میشد.» «و در پایان، میگوید: «نیازی به ذکر منبع نیست زیرا عدد مرموز توسط من محاسبه شده است!»»
تجزیه و تحلیل ربات
ربات دو دقیقه اول را صرف یافتن و تسلط بر متون مرتبط در این زمینه کرد. سپس روی صفحه نوشت که میخواهد ابتدا یک نسخه سادهتر و «اسباببازی» از سوال را حل کند تا یاد بگیرد. چند دقیقه بعد، نوشت که بالاخره آماده حل مسئله دشوارتر است. پنج دقیقه پس از آن، o4-mini یک راهحل صحیح اما گستاخانه ارائه داد. اونو، که همچنین یک مشاور ریاضی آزاد برای Epoch AI است، میگوید: «کمکم داشت خیلی گستاخانه میشد.» «و در پایان، میگوید: «نیازی به ذکر منبع نیست زیرا عدد مرموز توسط من محاسبه شده است!»»
اونو که شکست خورده بود، صبح زود یکشنبه به سراغ سیگنال رفت و بقیه شرکتکنندگان را مطلع کرد. او میگوید: «من آماده نبودم که با یک LLM مثل این رقابت کنم. قبلاً هرگز چنین استدلالی را در مدلها ندیده بودم. این کاری است که یک دانشمند انجام میدهد. این ترسناک است.»
عملکرد عالی ربات
اگرچه این گروه در نهایت موفق به یافتن ۱۰ سؤالی شد که ربات را با مشکل مواجه میکرد، محققان از میزان پیشرفت هوش مصنوعی در طول یک سال شگفتزده شدند. اونو این را به کار با یک «همکار قوی» تشبیه کرد. یانگ هوی هی، ریاضیدان موسسه علوم ریاضی لندن و از پیشگامان اولیه استفاده از هوش مصنوعی در ریاضی، میگوید: «این کاری است که یک دانشجوی تحصیلات تکمیلی بسیار بسیار خوب انجام میدهد – در واقع، بیشتر.» این ربات همچنین بسیار سریعتر از یک ریاضیدان حرفهای بود و تنها چند دقیقه طول میکشید تا کاری را انجام دهد که یک متخصص انسانی هفتهها یا ماهها طول میکشد تا آن را انجام دهد.
اگرچه بحث و جدل با o4-mini هیجانانگیز بود، اما پیشرفت آن نیز نگرانکننده بود. اونو و هی ابراز نگرانی میکنند که ممکن است به نتایج o4-mini بیش از حد اعتماد شود. هی میگوید: «اثبات از طریق استقراء، اثبات از طریق تناقض و سپس اثبات از طریق ارعاب وجود دارد. اگر چیزی را با اقتدار کافی بگویید، مردم فقط میترسند. من فکر میکنم o4-mini در اثبات از طریق ارعاب استاد شده است؛ همه چیز را با اعتماد به نفس زیادی میگوید.»
نتایج حل مسئله
در پایان جلسه، گروه شروع به بررسی آینده ریاضیدانان کرد. بحثها به سمت «سطح پنج» اجتنابناپذیر کشیده شد – سوالاتی که حتی بهترین ریاضیدانان هم نمیتوانستند حل کنند. اگر هوش مصنوعی به آن سطح برسد، نقش ریاضیدانان دستخوش تغییر شدیدی خواهد شد. به عنوان مثال، ریاضیدانان ممکن است به طرح سوالات ساده و تعامل با رباتهای استدلالگر روی آورند تا به آنها در کشف حقایق جدید ریاضی کمک کند، دقیقاً مانند کاری که یک استاد با دانشجویان تحصیلات تکمیلی انجام میدهد. به همین ترتیب، اونو پیشبینی میکند که پرورش خلاقیت در آموزش عالی، کلید حفظ ریاضیات برای نسلهای آینده خواهد بود.
اونو میگوید: «من به همکارانم گفتهام که گفتن اینکه هوش مصنوعی تعمیمیافته هرگز نخواهد آمد، [و] فقط یک کامپیوتر است، یک اشتباه بزرگ است. نمیخواهم به این هیجان دامن بزنم، اما از برخی جهات، این مدلهای زبانی بزرگ در حال حاضر از اکثر بهترین دانشجویان تحصیلات تکمیلی ما در جهان بهتر عمل میکنند.»
گرافیکس گرب فروشگاه طرحهای دیجیتال و گرافیک متحرک |