Тайный конклав: как ИИ перехитрил 30 лучших математиков мира

Тайный конклав: как ИИ перехитрил 30 лучших математиков мира
фото: Роман ПОПОВ (сгенерировано с помощью нейросети)

На секретной встрече в Калифорнии 30 ведущих математиков мира были поражены способностью нового чат-бота на базе искусственного интеллекта решать сложнейшие математические задачи профессорского уровня, демонстрируя уровень рассуждений, сравнимый с человеческим гением.

В середине мая состоялся тайный конклав математиков в Беркли, штат Калифорния, куда съехались 30 самых известных математиков мира, включая гостей из Великобритании. Участники сошлись в схватке с «логическим» чат-ботом, которому было поручено решать задачи, разработанные ими для проверки его математических способностей. После того как исследователи в течение двух дней забрасывали бота вопросами профессорского уровня, они были ошеломлены, обнаружив, что он способен ответить на некоторые из самых сложных разрешимых задач в мире. 

«У меня есть коллеги, которые буквально сказали, что эти модели приближаются к математическому гению», — сообщил Кен Оно, математик из Университета Вирджинии, руководитель и судья встречи.

 

Модель o4-mini и её возможности

Рассматриваемый чат-бот работает на базе o4-mini, так называемой модели рассуждений с большим языком (LLM). OpenAI обучил её делать весьма сложные выводы. Аналог Google, Gemini 2.5 Flash, обладает схожими возможностями. Как и LLM, на которых работали более ранние версии ChatGPT, o4-mini обучается предсказывать следующее слово в последовательности. Однако по сравнению с этими более ранними LLM, o4-mini и его аналоги представляют собой более лёгкие, более гибкие модели, обучающиеся на специализированных наборах данных с более сильным подкреплением от людей. Такой подход позволяет создать чат-бота, способного гораздо глубже погружаться в сложные математические задачи, чем традиционные LLM.

Чтобы отслеживать прогресс o4-mini, OpenAI ранее поручила Epoch AI, некоммерческой организации, проводящей бенчмаркинг LLM, составить 300 математических задач, решения которых ещё не были опубликованы. Даже традиционные LLM могут правильно ответить на многие сложные математические вопросы. Однако, когда Epoch AI задала нескольким таким моделям вопросы, отличавшиеся от тех, на которых они обучались, наиболее успешные смогли решить менее 2%, что свидетельствует о неспособности этих LLM к рассуждению. Но o4-mini оказалась совсем иной.

Испытание FrontierMath и очная встреча

Epoch AI наняла Эллиота Глейзера, недавно получившего докторскую степень по математике, для участия в новом сотрудничестве по бенчмарку FrontierMath в сентябре 2024 года. Проект собрал новые вопросы разного уровня сложности, причем первые три уровня охватывали задачи уровня бакалавриата, магистратуры и исследовательского уровня. К апрелю 2025 года Глейзер обнаружил, что o4-mini может решить около 20 процентов вопросов. Затем он перешёл к четвертому уровню: набору вопросов, которые были бы сложными даже для академического математика. Только небольшая группа людей в мире была бы способна разработать такие вопросы, не говоря уже о том, чтобы ответить на них. Математики, участвовавшие в конклаве, должны были подписать соглашение о неразглашении, требующее от них общаться исключительно через приложение для обмена сообщениями Signal. Другие формы контакта, такие как традиционная электронная почта, потенциально могли быть отсканированы LLM и непреднамеренно обучить его, тем самым «загрязняя» набор данных.

Каждая задача, которую не мог решить o4-mini, приносила математику, предложившему её, вознаграждение в размере 7500 долларов. Группа медленно, но верно продвигалась в поиске ответов на вопросы. Но Глейзер хотел ускорить процесс, поэтому Epoch AI организовал очные встречи в субботу, 17 мая, и воскресенье, 18 мая. Там участники должны были ответить на последний блок вопросов. 30 участников были разделены на группы по шесть человек. В течение двух дней учёные соревновались друг с другом, придумывая задачи, которые они могли решить, но которые бы сбили с толку рассуждающего ИИ-бота.

К концу субботнего вечера Оно был разочарован ботом, чья неожиданная математическая мощь тормозила прогресс группы. 

«Я придумал задачу, которую эксперты в моей области сочли бы открытым вопросом теории чисел — задачей уровня хорошей докторской диссертации», — говорит он. 

Он попросил o4-mini решить её. В течение следующих 10 минут Оно в оцепенении наблюдал, как бот в реальном времени разворачивал решение, попутно демонстрируя ход своих рассуждений. Первые две минуты бот потратил на поиск и изучение соответствующей литературы по этой теме. Затем он написал на экране, что хочет сначала попробовать решить более простую, «игрушечную» версию задачи, чтобы научиться. Через несколько минут он написал, что наконец-то готов решить более сложную задачу. Пять минут спустя o4-mini представил правильное, но дерзкое решение. 

«Это начинало становиться очень дерзким, — говорит Оно, который также является внештатным математическим консультантом Epoch AI. — А в конце говорится: «Ссылка не нужна, потому что загадочное число было вычислено мной!»

Тревожный прогресс и будущее математики

Побеждённый, Оно рано утром в воскресенье зашёл на Signal и предупредил остальных участников. 

«Я не был готов к такому противостоянию с магистрами права, — говорит он. — Я никогда раньше не видел подобного рода рассуждений в моделях. Именно так поступают учёные. Это пугает».

Хотя группе в конечном итоге удалось найти 10 вопросов, которые ставили бота в тупик, исследователи были поражены тем, насколько далеко продвинулся ИИ за год. Оно сравнил это с работой с «сильным партнёром». Ян Хуэй Хэ, математик из Лондонского института математических наук и один из первых пионеров применения ИИ в математике, говорит: 

«Это то, чем занимался бы очень, очень хороший аспирант, — на самом деле, даже больше». 

Бот также был намного быстрее профессионального математика: ему требовалось всего несколько минут, чтобы выполнить задачу, на которую у эксперта-человека ушли бы недели или месяцы.

Хотя спарринг с o4-mini был захватывающим, его прогресс также вызывал тревогу. Оно и Хэ выразили обеспокоенность тем, что результатам o4-mini могут слишком доверять. 

«Есть доказательство индукцией, доказательство от противного, а есть доказательство запугиванием, — говорит Хэ. — Если вы говорите что-то достаточно авторитетно, люди просто пугаются. Я думаю, o4-mini освоил доказательство запугиванием; он говорит всё с такой уверенностью».

К концу встречи группа начала размышлять о том, каким может быть будущее математики. Обсуждения перешли к неизбежному «пятому уровню» — вопросам, которые не под силу решить даже лучшим математикам. Если ИИ достигнет этого уровня, роль математиков резко изменится. Например, математики могут просто задавать вопросы и взаимодействовать с рассуждающими ботами, чтобы открывать новые математические истины, подобно тому, как профессор работает с аспирантами. В связи с этим Оно прогнозирует, что развитие творческих способностей в высшем образовании будет играть ключевую роль в сохранении математики для будущих поколений.

«Я всегда говорил коллегам, что утверждение, что обобщённый искусственный интеллект никогда не появится, что это всего лишь компьютер, — серьезная ошибка, — говорит Оно. — Не хочу раздувать истерию, но в некоторых отношениях эти большие языковые модели уже превосходят большинство наших лучших аспирантов в мире».

Источник: Scientific American

#ИИ #Математика #ИскусственныйИнтеллект #OpenAI #LLM