هوش مصنوعی در جلسه‌ای محرمانه در کالیفرنیا، از ۳۰ ریاضیدان برتر جهان پیشی گرفت

بازدید: 93 بازدید
زمان مطالعه: 10 دقیقه

ریاضیدانان برجسته جهان از اینکه هوش مصنوعی چقدر در انجام کارهایشان ماهر است، شگفت‌زده شدند. در ادامه با گرافیکس گرب همراه باشید.

در یک آخر هفته در اواسط ماه مه، یک گردهمایی مخفی ریاضی تشکیل شد. سی نفر از مشهورترین ریاضیدانان جهان به برکلی، کالیفرنیا سفر کردند و برخی از آنها از دوردست‌هایی مانند بریتانیا آمده بودند. اعضای گروه در یک رویارویی نهایی با یک ربات چت «استدلال‌گر» روبرو شدند که وظیفه داشت مسائلی را که آنها برای آزمایش شجاعت ریاضی آن طراحی کرده بودند، حل کند. محققان پس از دو روز پرسیدن سوالات در سطح استادی از ربات، با کمال تعجب متوجه شدند که این ربات قادر به پاسخ دادن به برخی از سخت‌ترین مسائل قابل حل جهان است. کن اونو، ریاضیدان دانشگاه ویرجینیا و رهبر و داور این جلسه، می‌گوید: «من همکارانی دارم که به معنای واقعی کلمه گفتند این مدل‌ها به نبوغ ریاضی نزدیک می‌شوند.»

چت‌بات o4-mini

چت‌بات مورد بحث توسط o4-mini، یک مدل زبان بزرگ استدلال (LLM) ، پشتیبانی می‌شود. این چت‌بات توسط OpenAI آموزش داده شده است تا بتواند استنتاج‌های بسیار پیچیده انجام دهد. معادل گوگل، Gemini 2.5 Flash، توانایی‌های مشابهی دارد. مانند LLMهایی که نسخه‌های اولیه ChatGPT را پشتیبانی می‌کردند، o4-mini یاد می‌گیرد که کلمه بعدی را در یک توالی پیش‌بینی کند. با این حال، در مقایسه با LLMهای قبلی، o4-mini و معادل‌های آن مدل‌های سبک‌تر و چابک‌تری هستند که بر روی مجموعه داده‌های تخصصی با تقویت قوی‌تر از سوی انسان آموزش می‌بینند. این رویکرد منجر به چت‌باتی می‌شود که قادر است بسیار عمیق‌تر از LLMهای سنتی به مسائل پیچیده ریاضی بپردازد.

برای پیگیری پیشرفت o4-mini، OpenAI پیش از این از Epoch AI، یک سازمان غیرانتفاعی که LLMها را ارزیابی می‌کند، خواسته بود تا 300 سوال ریاضی را که راه‌حل‌های آنها هنوز منتشر نشده بود، مطرح کند. حتی LLMهای سنتی نیز می‌توانند به بسیاری از سوالات پیچیده ریاضی به درستی پاسخ دهند. با این حال، وقتی Epoch AI از چندین مدل از این دست، که با سوالاتی که بر اساس آنها آموزش دیده بودند، متفاوت بودند، پرسید، موفق‌ترین آنها توانستند کمتر از 2 درصد را حل کنند، که نشان می‌داد این LLMها فاقد توانایی استدلال هستند. اما o4-mini بسیار متفاوت از آب درآمد.

7 تا از بهترین وب‌سایت‌ها برای پیدا کردن آکورد گیتار برای آهنگ‌ها

شرکت Epoch AI

شرکت Epoch AI، الیوت گلیزر، که اخیراً دکترای ریاضی خود را به پایان رسانده بود، را برای پیوستن به همکاری جدید برای این معیار، که FrontierMath نام دارد، در سپتامبر 2024 استخدام کرد. این پروژه سوالات بدیعی را با سطوح مختلف دشواری جمع‌آوری کرد، که سه سطح اول شامل چالش‌های سطح کارشناسی، کارشناسی ارشد و تحقیقاتی بود. تا آوریل 2025، گلیزر دریافت که o4-mini می‌تواند حدود 20 درصد از سوالات را حل کند.

سپس او به سطح چهارم رفت: مجموعه‌ای از سوالات که حتی برای یک ریاضیدان دانشگاهی نیز چالش برانگیز خواهد بود. تنها گروه کوچکی از مردم در جهان قادر به طرح چنین سوالاتی هستند، چه رسد به پاسخ دادن به آنها. ریاضیدانانی که در این پروژه شرکت کردند، باید یک توافق‌نامه عدم افشا امضا می‌کردند که آنها را ملزم می‌کرد فقط از طریق برنامه پیام‌رسان Signal با یکدیگر ارتباط برقرار کنند. سایر اشکال تماس، مانند ایمیل سنتی، می‌توانند به طور بالقوه توسط یک LLM اسکن شوند و ناخواسته آن را آموزش دهند و در نتیجه مجموعه داده‌ها را آلوده کنند.

راه ارتباطی اعضا

ریاضیدانانی که در این پروژه شرکت کردند، باید یک توافق‌نامه عدم افشا امضا می‌کردند که آنها را ملزم می‌کرد فقط از طریق برنامه پیام‌رسان Signal با یکدیگر ارتباط برقرار کنند. سایر اشکال تماس، مانند ایمیل سنتی، می‌توانند به طور بالقوه توسط یک LLM اسکن شوند و ناخواسته آن را آموزش دهند و در نتیجه مجموعه داده‌ها را آلوده کنند. هر مسئله‌ای که o4-mini نمی‌توانست حل کند، برای ریاضیدانی که آن را مطرح کرده بود، 7500 دلار جایزه می‌گرفت. گروه در یافتن سؤالات، پیشرفت آهسته و پیوسته‌ای داشت. اما گلیزر می‌خواست سرعت کار را افزایش دهد،

بنابراین Epoch AI جلسه حضوری را در روز شنبه 17 مه و یکشنبه 18 مه برگزار کرد. در آنجا، شرکت‌کنندگان آخرین دسته از سؤالات چالش‌برانگیز را نهایی می‌کردند. 30 شرکت‌کننده به گروه‌های شش نفره تقسیم شدند. به مدت دو روز، دانشگاهیان با یکدیگر رقابت کردند تا مسائلی را طراحی کنند که می‌توانستند حل کنند، اما ربات استدلال هوش مصنوعی را به اشتباه می‌انداختند.

این برنامه رایگان عکس‌های تار را فوراً واضح می‌کند

حل مسئله ریاضی

در پایان آن شنبه شب، اونو از ربات ناامید شده بود، چرا که مهارت غیرمنتظره ریاضی‌اش مانع پیشرفت گروه شده بود. او می‌گوید: «من با مسئله‌ای روبرو شدم که متخصصان رشته من آن را به عنوان یک سوال باز در نظریه اعداد – یک مسئله خوب در سطح دکترا – تشخیص می‌دادند.» او از o4-mini خواست تا سوال را حل کند. در طول 10 دقیقه بعدی، اونو در سکوتی حیرت‌زده تماشا می‌کرد که ربات در حال ارائه راه‌حلی در زمان واقعی است و روند استدلال خود را در طول مسیر نشان می‌دهد. ربات دو دقیقه اول را صرف یافتن و تسلط بر متون مرتبط در این زمینه کرد.

سپس روی صفحه نوشت که می‌خواهد ابتدا یک نسخه ساده‌تر و «اسباب‌بازی» از سوال را حل کند تا یاد بگیرد. چند دقیقه بعد، نوشت که بالاخره آماده حل مسئله دشوارتر است. پنج دقیقه پس از آن، o4-mini یک راه‌حل صحیح اما گستاخانه ارائه داد. اونو، که همچنین یک مشاور ریاضی آزاد برای Epoch AI است، می‌گوید: «کم‌کم داشت خیلی گستاخانه می‌شد.» «و در پایان، می‌گوید: «نیازی به ذکر منبع نیست زیرا عدد مرموز توسط من محاسبه شده است!»»

تجزیه و تحلیل ربات

ربات دو دقیقه اول را صرف یافتن و تسلط بر متون مرتبط در این زمینه کرد. سپس روی صفحه نوشت که می‌خواهد ابتدا یک نسخه ساده‌تر و «اسباب‌بازی» از سوال را حل کند تا یاد بگیرد. چند دقیقه بعد، نوشت که بالاخره آماده حل مسئله دشوارتر است. پنج دقیقه پس از آن، o4-mini یک راه‌حل صحیح اما گستاخانه ارائه داد. اونو، که همچنین یک مشاور ریاضی آزاد برای Epoch AI است، می‌گوید: «کم‌کم داشت خیلی گستاخانه می‌شد.» «و در پایان، می‌گوید: «نیازی به ذکر منبع نیست زیرا عدد مرموز توسط من محاسبه شده است!»»

اونو که شکست خورده بود، صبح زود یکشنبه به سراغ سیگنال رفت و بقیه شرکت‌کنندگان را مطلع کرد. او می‌گوید: «من آماده نبودم که با یک LLM مثل این رقابت کنم. قبلاً هرگز چنین استدلالی را در مدل‌ها ندیده بودم. این کاری است که یک دانشمند انجام می‌دهد. این ترسناک است.»

عملکرد عالی ربات

اگرچه این گروه در نهایت موفق به یافتن ۱۰ سؤالی شد که ربات را با مشکل مواجه می‌کرد، محققان از میزان پیشرفت هوش مصنوعی در طول یک سال شگفت‌زده شدند. اونو این را به کار با یک «همکار قوی» تشبیه کرد. یانگ هوی هی، ریاضیدان موسسه علوم ریاضی لندن و از پیشگامان اولیه استفاده از هوش مصنوعی در ریاضی، می‌گوید: «این کاری است که یک دانشجوی تحصیلات تکمیلی بسیار بسیار خوب انجام می‌دهد – در واقع، بیشتر.» این ربات همچنین بسیار سریع‌تر از یک ریاضیدان حرفه‌ای بود و تنها چند دقیقه طول می‌کشید تا کاری را انجام دهد که یک متخصص انسانی هفته‌ها یا ماه‌ها طول می‌کشد تا آن را انجام دهد.

مدل‌های هوش مصنوعی برای رسیدن به اهدافشان به شما دروغ می‌گویند

اگرچه بحث و جدل با o4-mini هیجان‌انگیز بود، اما پیشرفت آن نیز نگران‌کننده بود. اونو و هی ابراز نگرانی می‌کنند که ممکن است به نتایج o4-mini بیش از حد اعتماد شود. هی می‌گوید: «اثبات از طریق استقراء، اثبات از طریق تناقض و سپس اثبات از طریق ارعاب وجود دارد. اگر چیزی را با اقتدار کافی بگویید، مردم فقط می‌ترسند. من فکر می‌کنم o4-mini در اثبات از طریق ارعاب استاد شده است؛ همه چیز را با اعتماد به نفس زیادی می‌گوید.»

نتایج حل مسئله

در پایان جلسه، گروه شروع به بررسی آینده ریاضیدانان کرد. بحث‌ها به سمت «سطح پنج» اجتناب‌ناپذیر کشیده شد – سوالاتی که حتی بهترین ریاضیدانان هم نمی‌توانستند حل کنند. اگر هوش مصنوعی به آن سطح برسد، نقش ریاضیدانان دستخوش تغییر شدیدی خواهد شد. به عنوان مثال، ریاضیدانان ممکن است به طرح سوالات ساده و تعامل با ربات‌های استدلال‌گر روی آورند تا به آنها در کشف حقایق جدید ریاضی کمک کند، دقیقاً مانند کاری که یک استاد با دانشجویان تحصیلات تکمیلی انجام می‌دهد. به همین ترتیب، اونو پیش‌بینی می‌کند که پرورش خلاقیت در آموزش عالی، کلید حفظ ریاضیات برای نسل‌های آینده خواهد بود.

اونو می‌گوید: «من به همکارانم گفته‌ام که گفتن اینکه هوش مصنوعی تعمیم‌یافته هرگز نخواهد آمد، [و] فقط یک کامپیوتر است، یک اشتباه بزرگ است. نمی‌خواهم به این هیجان دامن بزنم، اما از برخی جهات، این مدل‌های زبانی بزرگ در حال حاضر از اکثر بهترین دانشجویان تحصیلات تکمیلی ما در جهان بهتر عمل می‌کنند.»

ادامه مطلب