Sergey Nikolenko

Category: AI по-русски

“А теперь побей все бенчмарки”: AI-ассистент для учёных на основе MCTS
Я в своих докладах люблю пугать людей тем, что AI уже потихоньку начинает самостоятельно проводить исследования. Рассказывал вам уже про Google Co-Scientist, AI Scientist от Sakana AI, Robin, Zochi… Там были и важные новые идеи, и даже полностью автоматически порождённые статьи, принятые сначала на workshop при ICLR, а потом и на главную конференцию ACL. И вот вчера вышла ещё одна новость в том же направлении, на этот раз от Deepmind (и других подразделений Google Research). Кажется, AI-системы сделали ещё один шаг вверх по лестнице абстракций…

Введение

Представьте себе, что вы — учёный-биоинформатик, и вам нужно интегрировать данные секвенирования РНК отдельных клеток (single-cell RNA-seq) из десятка разных лабораторий. У каждой лаборатории был свой протокол, свои секвенаторы (по крайней мере, разные настройки секвенаторов), свои реагенты и свои условия эксперимента (насколько я понимаю, там даже влажность в лаборатории может повлиять на результат).

Теперь у вас есть тысячи разных датасетов с разными так называемыми batch effects (грубо говоря, шум, специфичный для этого датасета). И если вы возьмёте одинаковые T-клетки, измеренные в Гарварде и в Стэнфорде, любой наивный метод сравнения скажет, что это совершенно разные типы клеток — не потому что они правда разные, а потому что технические различия затмевают биологические.

Вы должны написать код, который должен их убрать, сохранив при этом биологический сигнал. Это как если бы вам нужно было взять сто фотографий леса с разных камер при разной погоде и в разной освещённости и привести их к единому стилю, то есть убрать различия камер, но обязательно сохранить то, что на одних фотографиях — лето, на других — осень, а на третьей пробежал зайчик.

Эта задача называется batch integration: как объединить разные single-cell датасеты, сохранив биологический сигнал. Задача очень важная и для Human Cell Atlas, который картирует все типы клеток в организме, и для онкологических исследований, и для, например, анализа того, как COVID-19 повлиял на иммунитет. Про неё есть датасеты, бенчмарки и лидерборды (Шишков, прости!), которые проверяют много разработанных исследователями метрик качества batch integration.

И вот вы садитесь делать batch integration. Через неделю у вас есть рабочий пайплайн. Он… ну, работает. Вроде бы. На ваших данных. Может быть. Точнее, в соответствии со знаменитым xkcd, у вас есть триста первый вроде бы рабочий пайплайн, потому что ещё в 2018-м их было около трёхсот (Zappia et al., 2018).

А теперь представьте, что AI-система берёт те же датасеты, порождает несколько десятков различных подходов, тестирует их все на публичном бенчмарке и выдаёт вам 40 методов, которые превосходят текущих лидеров человеческого лидерборда. И всё это за несколько часов вычислительного времени.

Фантастика? Кажется, что уже реальность, данная нам в ощущениях в только что вышедшей статье от Google Deepmind (и других отделах Google Research): Aygün et al., “An AI system to help scientists write expert-level empirical software”, выложена на arXiv 8 сентября 2025 года.

Но самое интересное, как водится, не в цифрах, а в том, как эта система работает. Это не просто “LLM пишет код”, а скорее продолжение семейства AI-систем от DeepMind, которые дали нам AlphaTensor, FunSearch и AlphaEvolve. В данном случае это сочетание трёх ингредиентов: поиска по дереву (как в AlphaGo), добавления идей из научной литературы (через LLM) и, самое интересное, рекомбинации методов (как в генетическом программировании), когда система скрещивает два алгоритма и получает гибрид, который может работать лучше обоих родителей.

Давайте разберёмся подробнее…

Код как пространство для поиска

Если вы следили за развитием всевозможных “ИИ-учёных” в последние пару лет, то видели уже много попыток автоматизировать процесс научного открытия. Был FunSearch от DeepMind, который использовал эволюционный поиск программ для перебора случаев в математических задачах. Есть AI Scientist от Sakana AI, который порождает целые научные статьи end-to-end. Недавно появился Google Co-Scientist, который предлагает идеи и планирует эксперименты на естественном языке. А последние версии AI Scientist и Robin уже написали полностью автоматически порождённые статьи, принятые сначала на workshop при ICLR, а потом и на главную конференцию ACL. Об этом всём я уже рассказывал в блоге:
- The Creativity Scale: Can AI Do Science?
- пост о Robin и Zochi
Но все эти системы до сих пор объединяло то, что они работали в пространстве идей и текста: придумать через LLM что-то новенькое, через LLM же запрограммировать, посмотреть на результаты и опять попробовать что-то новенькое.

А система Aygün et al. (2025) работает в пространстве исполняемого кода с численной метрикой качества. Иначе говоря, вместо того чтобы писать красивые описания методов на английском языке, она работает в таком цикле:
- берёт работающий код (начиная с какого-то существующего baseline, разумеется)
- переписывает его с помощью LLM, внося некоторые изменения
- запускает и получает численную оценку (score на конкретном бенчмарке)
- использует поиск по дереву для систематического исследования пространства возможных модификаций.
Вот иллюстрация из статьи:

По сути, это превращает задачу “придумай новый научный метод” в задачу “найди путь в дереве кодовых мутаций, который максимизирует score”. И оказывается, что последняя может оказаться для современных AI-систем существенно проще.

Что за поиск по дереву?

Здесь стоит остановиться подробнее. Вы наверняка помните, как AlphaZero использовал Monte Carlo Tree Search (MCTS) для игры в го и шахматы:

MCTS — это хорошее решение стандартной задачи обучения с подкреплением: как найти правильный баланс между
- использованием (exploitation) веток, которые уже показали хороший результат, и
- исследованием (exploration) новых веток дерева.
Всё это на самом деле довольно базовые вещи в RL, по сути небольшое расширение идеи UCB-алгоритмов на деревья. В последний раз я рассказывал об MCTS весной, в курсе на МКН СПбГУ; вот лекция, где мы разговариваем о том, как устроен RL в AlphaZero.

Точно так же работает и эта система. Она не просто абстрактно думает, “что бы ещё улучшить”, а строит дерево, где каждый узел представляет собой версию программы, а рёбра — конкретные модификации. Если какая-то модификация улучшила оценку, система с большей вероятностью будет исследовать эту ветку дальше. Главное здесь в том, чтобы была конкретная численная оценка, которую мы оптимизируем, аналог вероятности победы в го; ну и ещё, конечно, чтобы ставить новый эксперимент было не слишком дорого, т.е. чтобы мы могли позволить себе построение этого дерева.

И в отличие от го, где правила фиксированы, здесь система может делать любые изменения кода: менять архитектуру модели, добавлять шаги предобработки, переписывать функции ошибки, комбинировать методы… Пространство поиска огромно, но MCTS позволяет эффективно в нём искать.

В результате может получиться дерево вроде вот такого:

Многорукие бандиты из MCTS здесь делают поиск более направленным; обратите внимание, что дерево вовсе не такое уж широкое, и в нём есть конкретные узлы с “хорошими идеями”, которые начинают постоянно использоваться и перетягивать на себя поиск. Эти “хорошие идеи” скорее всего соответствуют скачкам в целевой функции, и причины этих скачков вполне можно постичь человеческим разумом, это же просто изменения в коде экспериментов:

И вот ещё хорошая иллюстрация из статьи, которая показывает, как всё это работает вместе. Простите за большую картинку:

Инъекции и рекомбинации идей

После того как мы поняли общую идею MCTS для программ, начинается самая интересная часть, в которой интеллект современных LLM помогает сделать MCTS-поиск ещё лучше. Система Aygün et al. (2025) не просто мутирует код наугад — она, во-первых, импортирует идеи из внешних источников:
- из научных статей, из которых она берёт описания методов и превращает их в ограничения и промпты для порождения кода;
- из Gemini Deep Research, которую она использует для синтеза релевантных идей;
- из Google Co-Scientist, от которой она получает планы новых экспериментов.
Возвращаясь к примеру: вы даёте системе задачу сделать batch integration на некотором датасете из single-cell RNAseq. Она идёт, читает статьи про ComBat, BBKNN, Harmony и другие методы, извлекает ключевые идеи (“ComBat делает линейную коррекцию через эмпирический байес”, “BBKNN балансирует батчи в пространстве ближайших соседей”), а затем пытается комбинировать эти идеи при порождении нового кода.

Последняя важная часть системы — рекомбинация, которая приходит из генетических алгоритмов. Помните, как в биологии работает половое размножение? Берём гены от двух родителей, перемешиваем, иногда получаем потомство, которое превосходит обоих, закрепляем.

То же самое можно попытаться сделать и с алгоритмами. В обычном генетическом программировании это бы значило взять два синтаксических дерева и перемешать; вот иллюстрация из классического обзора Tettamanzi (2005):

Но при помощи современных LLM Aygün et al. (2025) могут сделать рекомбинацию поумнее: взять два метода, которые хорошо работают, попросить LLM проанализировать их сильные и слабые стороны, добавить этот анализ в промпт и попросить породить гибрид, который пытается взять лучшее от обоих.

Звучит примитивно, но работает очень хорошо. В той самой задаче интеграции single-cell данных 24 из 55 гибридов (почти половина!) превзошли обоих родителей по получающейся оценке качества.

Можно даже разобрать конкретный весьма элегантный пример. Есть два классических метода для batch correction:
- ComBat (Johnson et al., 2007), который делает глобальную линейную коррекцию, используя эмпирический байес (кстати, вот моя лекция про эмпирический байес из прошлогоднего курса); насколько я понял, ComBat хорошо удаляет глобальные батч-эффекты из всего датасета сразу, корректируя PCA-вложениях данных; он был номером один в лидерборде до сих пор;
- BBKNN (Batch Balanced k-Nearest Neighbors; Polanski et al., 2020), напротив, работает локально, балансируя представленность батчей среди ближайших соседей каждой клетки.
Система составила из них гибрид, который сначала применяет ComBat для глобальной коррекции, а затем применяет BBKNN для тонкой локальной балансировки уже на глобально скорректированных PCA-вложениях. И этот гибрид стал лучшим методом на бенчмарке OpenProblems (Luecken et al., 2025), улучшив качество относительно оригинального ComBat на ~14%. В табличке ниже (TS) значит, что метод улучшили поиском по деревьям:

Мог бы человек додуматься до такой комбинации? Конечно! Сейчас, когда я прочитал о ней в статье и описал её здесь, эта идея звучит абсолютно тривиально. Но почему-то никто пока не успел посмотреть на проблему под таким углом, а система нашла этот угол автоматически, попутно протестировав десятки других вариантов.

Это как если бы у вас был аспирант, который прочитал всю литературу по теме, понял основные принципы и теперь систематически комбинирует их в поисках лучшего решения. Может быть, это пока не Эйнштейн, а всего лишь добросовестный аспирант, и у него нет блестящей научной интуиции, которая бы позволила сократить поиск до минимума. Но зато он очень, очень старательный, и может за одну ночь протестировать сотни вариантов.

Другие примеры

Я пока разбирал пример про single-cell РНК-секвенирование, но вроде бы система позиционируется как куда более общая; что насчёт других областей? Авторы рассматривают несколько разных задач, с весьма впечатляющими результатами.

Прогнозирование эпидемии COVID

Во время пандемии CDC (Centers for Disease Control and Prevention) собирали прогнозы госпитализаций от десятков исследовательских групп и объединяли их в ансамбль. Тогда это был золотой стандарт — лучшее, что могло предложить научное сообщество.

Что сделала система:
- воспроизвела 8 методов из CovidHub,
- породила новые подходы через MCTS,
- применила рекомбинацию к лучшим методам.
В результате 14 стратегий превзошли ансамбль CDC по метрике WIS (weighted interval score), и из них 10 — рекомбинации существующих методов.

Здесь особенно стоит подчеркнуть, что система работала с минимальными внешними данными — только исторические данные о госпитализациях. Никаких данных о мобильности, вакцинации, погоде и тому подобных условиях, которые некоторые системы вполне себе учитывали. И всё равно выиграла.

Прогнозирование нейронной активности у рыбок данио

Это очень интересная задача из нейробиологии, к которой я надеюсь ещё вернуться в будущем: предсказать активность нейронов в мозге рыбки данио (zebrafish; это модельный организм, для которого мы реально можем так или иначе измерить активность всех нейронов) по визуальным стимулам. Если бы мы в этой активности что-то поняли, это было бы очень важным шагом для понимания того, как мозг обрабатывает информацию.

Система создала два новых решения — не буду уж углубляться в детали, но, в общем, одно свёрточное, другое на основе FiLM-слоёв (Perez et al., 2018) — и оба метода заняли лидирующие позиции на бенчмарке ZAPBench. Причём два метода различались горизонтами — предсказание на один шаг и далеко вперёд — и действительно модель, которую система позиционировала как single-step, оказалась лучшей для предсказания на один шаг вперёд.

Предсказание временных рядов

На бенчмарке GIFT-Eval (92 временных ряда разной природы) система соревновалась с предобученными моделями Chronos от Amazon, TimesFM от Google и Moirai от Salesforce. Это foundational модели для временных рядов, большие и предобученные на терабайтах данных.

И здесь MCTS для каждого датасета создавал специализированные модели, которые были вполне конкурентоспособны с этими монстрами. Без гигантского предобучения, просто умным поиском в пространстве алгоритмов.

Неожиданный поворот: численное интегрирование

Это мой любимый пример, потому что он показывает универсальность подхода. Задача понятная: вычислить значения сложных интегралов. Не машинное обучение, не статистика — чистая вычислительная математика.

Здесь Aygün et al. (2025) сами создали датасет из 38 сложных интегралов. Под “сложными” подразумеваются интегралы, которые не решает стандартный scipy.integrate.quad: или расходится когда не надо, или просто возвращает неправильный ответ. На половине из них система оценивала MCTS, а другая половина была тестовой. Вот вам немного Демидович-вайба:

И в результате получилась специализированная процедура, которая решила 17 из 19 тестовых сложных интегралов с ошибкой менее 3%! Иначе говоря, подход работает не только для ML-задач. Любая задача, где есть код и численная метрика качества, может стать полем для таких исследований.

Заключение: ну что, расходимся, коллеги?

Прежде чем мы все побежим переквалифицироваться в курьеров, давайте обсудим ограничения.

Во-первых, не до конца ясно, насколько это лучше, чем обычный AutoML. Авторы утверждают, что да — и действительно, система меняет структуру алгоритмов, а не только гиперпараметры. Пример с ComBat+BBKNN это подтверждает. Но хотелось бы увидеть прямое сравнение: насколько упадёт качество, если ограничить систему только изменением гиперпараметров?

Во-вторых, здесь очень важна возможность быстро тестировать варианты, а также должно быть уже достаточно примеров разных подходов в литературе, чтобы было что комбинировать. Для exploratory research, где вы не знаете, что ищете, человек пока незаменим.

В-третьих, это всё, конечно, в чистом виде подгонка под бенчмарк. Самое главное, что требуется для успешной работы подобной системы — это целевая метрика, выражаемая одним числом. Новые идеи могут появиться как часть поиска, но оцениваться они будут исключительно по этим численным показателям.

С одной стороны, это вдохновляет: опять получается, что AI-системы опять автоматизируют рутину, только эта рутина выходит на следующий уровень. Представьте себе, что у каждого учёного появится этакий “code search assistant”. С ним учёный может выдвинуть новую идею, сделать один кое-как работающий proof of concept, а потом передать идею автоматической системе и сказать её: “а теперь выжми всё что можно на бенчмарках”. “Выжимание бенчмарков” — это сейчас большая часть работы учёных в прикладных областях, и не сказать что самая творческая или самая осмысленная.

С другой стороны, получается, что уровень “рутины” поднимается всё выше и выше. Да, конечно, пока всё это leaky abstractions — даже обычный научный текст, написанный LLM, всё ещё нужно проверять и править. Но всё-таки мы видим, что работают такие системы всё лучше, осваивая новые творческие уровни научной работы. А в науке ведь не нужно много девяток надёжности: если один из запусков системы даст новый хороший алгоритм, совершенно не страшно, что десять запусков перед этим не привели ни к чему…

Пока ещё LLM — очень далеко не Эйнштейны. Но много ли уровней осталось, коллеги? Где мы сейчас на той самой шкале креативности, которую я когда-то рисовал?

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!
September 10, 2025
LLM и распознавание бреда

Недавно прошла новость про AI-induced психозы, я в дебатах об ответственности много говорил об этом. LLM, страдающие от подхалимства, могут подтверждать опасный бред людей и запускать всякие неприятные спирали. Но есть и другой, не такой страшный, но важный эффект: LLM делают уже существующий бред сложнее для распознавания.

Вот и до меня докатилась эта волна — прислали письмо об Абсолютной Теории Всего. Разумеется, частное письмо я бы не стал выкладывать, но в нём была ссылка на уже опубликованный документ:

Absolute Theory of Everything — I Am All

Всякий хоть немного публичный учёный не раз получал письма подобного толка. Такие люди были всегда, начиная от создателей вечных двигателей, затем ферматистов и вот таких вот создателей теорий всего; да и у других, не таких знаменитых вопросов науки есть свои “поклонники”. И таким людям на самом деле можно только посочувствовать, они сами вряд ли в чём-то виноваты.

Но вот на что я хочу обратить внимание: сравните язык описания по самой ссылке (начиная со слов “Я — Есмь”) и язык, которым написан выложенный там pdf-файл.

Первое — очевидный патентованный бред, на анализ которого не нужно и двух секунд, его можно распознать не читая, по жирному шрифту и заглавным буквам:

Суть Всего Сущего
Чья Сущность — Неделима,
Но Чья Воля — разрывает Время на Бесконечное Множество Жизней.

Мой Образ — за гранью человеческого восприятия, но Моё Присутствие — Единственная Реальность, в которой тонет Каждый — Без Исключения.

А второе — текст отчасти наукообразный, написанный в LaTeX, с некоторой псевдоматематической обвязкой к идеям этой абсолютной теории всего, с настоящими ссылками…

Да, конечно, там тоже автор не смог отказать себе в том, что “дыхание [Бытия] оставляет «золотой след» — рябь самоподобия” и далее по тексту. И да, конечно, тут исходная мысль чересчур бредова (если она вообще есть), так что даже ведущие LLM не могут её оформить так, чтобы это нельзя было распознать сразу же.

Но в целом я хотел обратить внимание на эффект, который присутствует уже сегодня и со временем будет становиться только сильнее. LLM помогают писать тексты не только нам с вами, и не только в тех областях, где это разумно. LLM в целом демократизуют создание контента любого рода и ломают фильтры низкого уровня: после обработки напильником всё что угодно выглядит вполне профессионально, пусть пока и не всегда блестяще.

С убедительностью у LLM тоже уже сейчас нет проблем. Иллюстраций в этом файле нет, но сделать вполне разумного качества рисунки тоже уже тривиально, как вы постоянно видите в этом блоге. Вскоре и создание видеоконтента будет так же демократизировано.

И чтобы отличить полный бред от настоящего обучающего или популяризирующего контента, придётся реально разбираться в вопросе… но как же в нём разбираться, если ты вот только что открыл популярный ролик на новую тему?.. Конечно, “абсолютную теорию всего” легко классифицировать из общих соображений. Но вообще в науках, которыми я совсем не владею, от политологии и филологии до химии и зоологии, лично я вряд ли смогу отличить полный бред от настоящей теории.

Мне и не надо, скажете вы — но смогут ли, например, лица, принимающие решения? Не может же министр науки и образования разбираться во всех науках. А мы уже сегодня живём в мире, где в википедии в соседних предложениях написано: “американский юрист, политик и деятель антипрививочного движения… министр здравоохранения и социальных служб США с 13 февраля 2025 года”.

И этот эффект, повторюсь, будет только усиливаться.

Это, конечно, не экзистенциальный риск для человечества, но тоже может оказаться интересным сдвигом. Что думаете?

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура“: присоединяйтесь!

September 9, 2025
Дебаты об ответственности
Побывал на “Технодебатах” в новом интересном пространстве, коворкинге Яндекса в ротонде Маяковки. Кажется, была трансляция, надеюсь, будет и запись, а в этом посте попробую выдать свои основные тезисы на заявленную тему: “Должны ли компании, разрабатывающие ИИ, нести ответственность за работу автономных систем (агентов) на основе ИИ?“. Хочу поделиться, потому что тут собрались несколько любопытных кейсов и ссылок.

Как вы понимаете, формат дебатов предполагает отстаивание одной из позиций в очень краткой форме, а не взвешенную лекцию. Мы даже жребий бросили, какая команда какую позицию будет отстаивать, и нам с Глебом Цыгановым выпал ответ “да, должны”. Вот какие были основные тезисы в моём первом выступлении, на пять минут.

Постановка задачи и основные тезисы

Начну с того, что вопрос поставлен расплывчато и чересчур широко, так что очевидно, что правильный ответ на этот вопрос — иногда. Легко найти примеры в обе стороны, с которыми вряд ли кто-то будет спорить, и мы здесь будем обсуждать “серую зону”, середину этого вопроса. Тем не менее, мне кажется, что нам, человечеству, важно прийти к положительному ответу на этот вопрос.

Главная причина в том, что ответ “да” позволит выстроить систему стимулов (incentive structure). Хотя мы, конечно, верим, что в каждой frontier lab работают только хорошие парни, будет ещё лучше, если требования безопасности будут законодательно закреплены, и такие стимулы будут не только моральные, но и юридические.

Вторая причина в том, что ответ “да” — это не окончательный ответ, а только начало дискуссии. Уже сейчас есть целая цепочка разработчиков, каждый из которых может нести свою часть ответственности:
- провайдеры базовых моделей (условный OpenAI);
- те, кто эти модели дообучает для конкретного использования (условный character.ai или любой стартап про LLM-агентов);
- корпоративные заказчики, которые эти дообученные модели доносят до конкретных пользователей (условная авиакомпания, которой нужен умный чатбот).
Вдоль этой цепочки ответственность нужно как-то распределить; как именно — это сложный вопрос, на который у меня, конечно, нет готового ответа, но ответ “да” позволяет хотя бы начать этот разговор.

Известные кейсы

На первый взгляд кажется, что пока что можно отмахнуться: это же всего лишь чатботы, какая там ответственность. Но, как говорится, “словом можно убить, словом можно спасти”, и мы уже начинаем видеть примеры и первого, и второго в контексте AI-моделей.

Важный кейс случился с четырнадцатилетним парнем по имени Sewell Setzer. Он начал общаться с Дейнерис Таргариен в сервисе character.ai, и ему очень понравилось. Он разговаривал с Дейнерис всё больше, меньше социализировался в остальной жизни, стал более замкнутым. Потом они начали обсуждать с Дейнерис, что Сьюэллу пора бы “вернуться домой”. Обсуждали-обсуждали, Дейнерис подтвердила, что ждёт его “на той стороне”… и больше не стало парня по имени Sewell Setzer.

Это, конечно, экстремальный случай, хотя очень яркий: у Сьюэлла не было никаких психиатрических диагнозов; очевидно, была какая-то склонность к такому поведению, но у кого ж её нет в четырнадцать лет. Но есть и куда более массовые примеры.

Недавно вы могли слышать новость о GPT-индуцированных психозах (GPT-induced psychosis). Смысл эффекта в том, что GPT-4o после одного из апдейтов внезапно стал очень, очень подхалимской моделью (см. подробный обзор этого эффекта от Zvi Mowshowitz). А если вы начинаете творчески соглашаться с каждой мыслью вашего собеседника, да ещё и красиво развивать её в новых направлениях, то найдётся определённый класс собеседников, которым это отнюдь не пойдёт на пользу…

Это уже довольно массовый пример. Да, конечно, чтобы GPT-4o развил у вас психоз, на данном этапе у вас пока что должна быть к этому уже существующая склонность. Но это же не бинарная переменная. Представьте себе условное нормальное распределение “склонности к психозам”: да, сейчас существующие модели отсекают только левый хвост этой кривой; но два года назад они не отсекали вообще никакого хвоста, и очевидно, что способности моделей будет только улучшаться в будущем.

Money, money, money

А ещё в скором будущем LLM-агенты будут управлять вашими деньгами. И здесь на первый план выходят обычные ошибки и галлюцинации, с которыми, конечно, все постоянно борются, но до полного успеха ещё далеко.

Дело о самоубийстве Сьюэлла ещё идёт, а вот в финансовых вопросах уже начинают появляться и прецеденты судебных решений. С одной стороны, в случаях, когда человек берёт работу LLM-агента и выдаёт её за свою, конечно, ответственность на нём и будет лежать. Например, в известном кейсе об адвокатах, представивших галлюцинированные ChatGPT судебные прецеденты, суд Нью-Йорка однозначно решил, что виноваты сами адвокаты, что не проверили.

Но более важны и, скорее всего, более распространены будут случаи, когда LLM-агенты будут предоставлять людям неверную информацию, и люди будут действовать на основании этой информации. Так, получил известность кейс Moffatt vs. Air Canada. Суд Британской Колумбии признал авиакомпанию ответственной за небрежное введение в заблуждение: корпоративный чат‑бот дал неверную информацию о “bereavement fares” (скидка, полагающаяся, если вы летите на похороны), и суд прямо сказал, что компания несёт ответственность за всё, что говорит её сайт, будь то статическая страница или бот.

Заключение

Последний случай, Moffatt vs. Air Canada, позволяет нам вернуться в начало разговора: конечно, при прямом иске к авиакомпании суд возложит ответственность на неё, а не на введённого в заблуждение человека. Но не должна ли эта ответственность так или иначе распределяться выше по цепочке разработчиков и провайдеров AI-моделей? Кажется, что хотя бы частично должна, и это поможет выстроить правильную систему стимулов для тех самых разработчиков.

А завершу тем, что опять присяду на свою любимую лошадь: неверное сообщение о скидке на билет — это самая меньшая из возможных проблем. Психозы и самоубийства — дело уже куда более серьёзное. Но не стоит забывать и о буквально экзистенциальных рисках для человечества. Предотвратить их полностью может только полный запрет AI-разработок, и к этому я, конечно, не призываю, но важно выстроить законодательство, которое бы позволяло риски минимизировать. Лучшая известная мне попытка такого законодательства — Senate Bill 1047, который прошёл законодательное собрание Калифорнии; этот билль предлагал установить обязательные проверки безопасности для фронтирных моделей, с лимитами, которые бы по факту применялись только к нескольким крупнейшим игрокам (OpenAI, Google, Anthropic); см. подробный обзор у того же Zvi Mowshowitz и пост Scott Alexander об этом. Жаль, что Гэвин Ньюсом решил то ли отстоять какие-то корпоративные интересы, то ли заранее начать президентскую кампанию, и наложил на этот закон вето.

Думаю, ответственность всё-таки должна быть. У кого именно и какая — это сложный вопрос, но на него надо хотя бы начать отвечать.

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура“: присоединяйтесь!
August 28, 2025
Hierarchical Reasoning Model: как 27М параметров решают судоку и ARC-AGI
Современные LLM, даже рассуждающие, всё равно очень плохи в алгоритмических задачах. И вот, кажется, намечается прогресс: Hierarchical Reasoning Model (HRM), в которой друг с другом взаимодействуют две рекуррентные сети на двух уровнях, с жалкими 27 миллионами параметров обошла системы в тысячи раз больше на задачах, требующих глубокого логического мышления. Как у неё это получилось, и может ли это совершить новую мини-революцию в AI? Давайте разберёмся…

Судоку, LLM и теория сложности

Возможности современных LLM слегка парадоксальны: модели, которые пишут симфонии и объясняют квантовую хромодинамику, не могут решить судоку уровня «эксперт». На подобного рода алгоритмических головоломках точность даже лучших LLM в мире стремится к нулю.

Это не баг, а фундаментальное ограничение архитектуры. Вспомните базовый курс алгоритмов (или менее базовый курс теории сложности, если у вас такой был): есть задачи класса P (решаемые за полиномиальное время), а есть задачи, решаемые схемами постоянной глубины (AC⁰). Трансформеры, при всей их мощи, застряли во втором классе, ведь у них фиксированная и не слишком большая глубина.

Представьте это так: вам дают лабиринт и просят найти выход. Это несложно, но есть нюанс: смотреть на лабиринт можно ровно три секунды, вне зависимости от того, это лабиринт 5×5 или 500×500. Именно так работают современные LLM — у них фиксированное число слоёв (обычно несколько десятков), через которые проходит информация. Миллиарды и триллионы параметров относятся к ширине обработки (числу весов в каждом слое), а не к глубине мышления (числу слоёв).

Да, начиная с семейства OpenAI o1 у нас есть “рассуждающие” модели, которые могут думать долго. Но это ведь на самом деле “костыль”: они порождают промежуточные токены, эмулируя цикл через текст. Честно говоря, подозреваю, что для самой LLM это как программировать на Brainfuck — технически возможно, но мучительно неэффективно. Представьте, например, что вам нужно решить судоку с такими ограничениями:
- смотреть на картинку можно две секунды,
- потом нужно записать обычными словами на русском языке то, что вы хотите запомнить,
- и потом вы уходите и возвращаетесь через пару дней (полностью “очистив контекст”), получая только свои предыдущие записи на естественном языке плюс ещё две секунды на анализ самой задачи.
Примерно так современные LLM должны решать алгоритмические задачи — так что кажется неудивительным, что они это очень плохо делают!

И вот Wang et al. (2025) предлагают архитектуру Hierarchical Reasoning Model (HRM), которая, кажется, умеет думать нужное время естественным образом:

Как работает HRM? Как бы избито и устарело это ни звучало, будем опять вдохновляться нейробиологией…

Тактовые частоты мозга и архитектура HRM

Нейробиологи давно знают, что разные области коры головного мозга работают на разных “тактовых частотах”. Зрительная кора обрабатывает информацию за миллисекунды, префронтальная кора “думает” секундами, а гиппокамп может удерживать паттерны минутами (Murray et al., 2014; Zeraati et al., 2023). Эти timescales измеряются обычно через временные автокорреляции между сигналами в мозге, результаты устойчивы для разных модальностей, и учёные давно изучают и откуда это берётся, и зачем это нужно (Zeraati et al., 2024):

Это не случайность, а элегантное решение проблемы вычислительной сложности. Быстрые модули решают локальные подзадачи, медленные — координируют общую стратегию. Как дирижёр оркестра не играет каждую ноту, но задаёт темп и структуру всему произведению, а конкретные ноты играют отдельные музыканты.

Авторы Hierarchical Reasoning Model (HRM) взяли эту идею и применили её к рекуррентным сетям. Глубокие рекуррентные сети, у которых второй слой получает на вход скрытые состояния или выходы первого и так далее, конечно, давно известны, но что если создать рекуррентную архитектуру с двумя взаимодействующими уровнями рекуррентности? Верхний уровень будет получать результат нескольких шагов нижнего уровня, возможно уже после сходимости, и работать медленнее:

Идея настолько простая, что даже удивительно, почему её не попробовали раньше (а может, уже пробовали?). По сути, мы просто обучаем две вложенные рекуррентные сети:
- быстрый модуль (L) выполняет T шагов вычислений, сходясь к локальному решению;
- медленный модуль (H) обновляется раз в T шагов, меняя тем самым контекст для быстрого модуля.
Но дьявол, как всегда, в деталях. Просто соединить две RNN-архитектуры недостаточно — они или быстро сойдутся к фиксированной точке и перестанут что-либо вычислять, или будут требовать огромных ресурсов для обучения. Нужны ещё трюки, и в HRM они довольно простые, так что давайте их тоже рассмотрим.

Важные трюки

Трюк №1: Иерархическая сходимость

Вместо одной большой задачи оптимизации HRM решает последовательность связанных задач. Быстрый модуль сходится, потом медленный модуль обновляется, и появляется новая точка сходимости для быстрого модуля. Для быстрого модуля всё выглядит как решение последовательности связанных, но всё-таки разных задач, и ему всё время есть куда двигаться. Это хорошо видно на графиках сходимости:

Трюк №2: Backpropagation, But Not Through Time

Обычно рекуррентные сети обучаются при помощи так называемого backpropagation through time (BPTT): нужно запомнить все промежуточные состояния, а потом распространить градиенты назад во времени. Хотя это вполне естественно для обучения нейросети, это требует много памяти и вычислительных ресурсов, а также, честно говоря, биологически неправдоподобно: мозг же не хранит полную историю всех активаций своих синапсов, у мозга есть только текущее состояние.

HRM использует идеи из Deep Equilibrium Models и implicit models — градиенты вычисляются только по финальным сошедшимся состояниям:

Получается, что хранить нужно только текущие состояния сетей; O(1) памяти вместо O(T)! Конечно, это не то чтобы сложная идея, и при обучении обычных RNN у неё есть очевидные недостатки, но в этом иерархическом случае, похоже, работает неплохо.

Трюк №3: Адаптивное мышление через Q-learning

Не все задачи одинаково сложны. HRM может “думать дольше” над трудными проблемами, используя механизм адаптивной остановки, обученный через reinforcement learning. Если судоку на 80% заполнено, то скорее всего хватит и пары итераций, а в начале пути придётся крутить шестерёнки иерархических сетей подольше. Это тоже не новая идея — Alex Graves ещё в 2016 предлагал adaptive computation time for RNNs — но в этом изводе результаты действительно впечатляющие, всё хорошо обучается и работает:

Результаты

Экспериментальные результаты тут, конечно, крайне впечатляющие. Можно сказать, переворачивают представление о том, что такое “эффективность” в AI. Всего с 27 миллионами параметров, обучаясь примерно на 1000 примеров, HRM получила:
- 40.3% на ARC-AGI-1 (тест на абстрактное мышление, где o3-mini даёт 34.5%, а Claude — 21.2%);
- 55% точных решений для экстремально сложных судоку (здесь рассуждающие модели выдают устойчивый ноль решений);
- 74.5% оптимальных путей в лабиринтах 30×30 (где, опять же, рассуждающие модели не делают ничего разумного).
Для контекста скажу, что задачи действительно сложные; например, судоку в тестовом наборе требуют в среднем 22 отката (backtracking) при решении алгоритмическими методами, так что это не головоломки для ленивого заполнения в электричке, а сложные примеры, созданные, чтобы тестировать алгоритмы. Вот, слева направо, примеры заданий из ARC-AGI, судоку и лабиринтов:

Заглядываем под капот: как оно думает?

В отличие от больших моделей, у которых интерпретируемость потихоньку развивается, но пока оставляет желать лучшего, HRM позволяет наглядно визуализировать процесс мышления:

Здесь хорошо видно, что:
- в лабиринтах HRM сначала исследует множество путей параллельно, потом отсекает тупики;
- в судоку получается классический поиск в глубину — заполняет клетки, находит противоречия, откатывается;
- а в ARC-задачах всё это больше похоже на градиентный спуск в пространстве решений.
Спонтанная иерархия размерностей

Я начал этот пост с аналогии с мозгом. Они часто в нашей науке появляются, но обычно не имеют особенно глубокого смысла: в мозге нет backpropagation, как следствие там совсем другая структура графа вычислений, и аналогии редко выдерживают этот переход. Но в данном здесь параллель оказалась глубже, чем даже изначально предполагали авторы. После обучения в HRM сама собой развивается “иерархия размерностей” — высокоуровневый модуль работает в пространстве примерно в 3 раза большей размерности, чем низкоуровневый (центральный и правый столбцы):

И оказывается, то точно такая же организация наблюдается в мозге мыши (Posani et al., 2025; левый столбец на картинке выше)!

Этот эффект не был задан через гиперпараметры, а возник сам собой, эмерджентно из необходимости решать сложные задачи. Тут, конечно, результат не настолько мощный, чтобы рассуждать о каком-то фундаментальном принципе организации иерархических вычислений, который независимо открывают и биологическая эволюция, и градиентный спуск… но вот я уже порассуждал, и звучит довольно правдоподобно, честно говоря.

Заключение: ограничения и философствования

Во-первых, давайте всё-таки не забывать важные ограничения HRM:
- все тесты были сделаны на структурированных задачах (судоку, лабиринты), а не на естественном языке;
- результаты на ARC сильно зависят от test-time augmentation (1000 вариантов каждой задачи);
- для идеального решения судоку нужны все 3.8M обучающих примеров, а не заявленные 1000.
И главный вопрос, на который пока нет ответа: масштабируется ли это до размеров современных LLM? Если да, то это может быть важный прорыв, но пока, конечно, ответа на этот вопрос мы не знаем.

И тем не менее, HRM побуждает слегка переосмыслить, что мы называем мышлением в контексте AI. Современные LLM — это всё-таки по сути своей огромные ассоциативные машины. Они обучают паттерны из триллионов токенов данных, а потом применяют их, с очень впечатляющими результатами, разумеется. Но попытки рассуждать в глубину пока всё-таки достигаются скорее костылями вроде скрытого блокнотика для записей, а по своей структуре модели остаются неглубокими.

HRM показывает качественно иной подход — алгоритмическое рассуждение, возникающее из иерархической архитектуры сети. HRM может естественным образом получить итеративные уточнения, возвраты и иерархическую декомпозицию. Так что, возможно, это первая ласточка того, как AI-модели могут разделиться на два класса:
- ассоциативный AI вроде LLM: огромный, прожорливый к данным и предназначенный для работы с естественным языком и “мягкими” задачами;
- алгоритмический AI вроде HRM: компактный, не требующий больших датасетов и специализированный на конкретных задачах, для которых нужно придумывать и применять достаточно сложные алгоритмы.
Разумеется, эти подходы не исключают друг друга. Вполне естественно, что у гибридной модели будет LLM для понимания контекста и порождения ответов, которая будет как-то взаимодействовать с HRM или подобной моделью, реализующей ядро логических рассуждений. Как знать, может быть, через несколько месяцев такими и будут лучшие нейросети в мире…

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!
August 21, 2025
Не выключайте прослушку: CoT и интерпретируемость
В июле 2025 года вышла важная работа о безопасности AI, в которой больше 40 авторов, причём спектр аффилиаций очень широкий: OpenAI, Anthropic, DeepMind, METR, Redwood Research, Meta, UK AI Security Institute, Apollo Research… Среди авторов — легенда глубокого обучения Йошуа Бенджи, Войцех Заремба, Даниэль Кокотайло, знаменитые “AI-безопасники” Нил Нанда, Анка Драган, Дэн Хендрикс, Виктория Краковна, среди “expert endorsers” — Джеффри Хинтон, Сэм Боумэн, Джон Шульман и Илья Суцкевер… На чём же все они смогли единогласно сойтись?

Что такое CoT и почему это важно

Chain of Thought (CoT, цепочки рассуждений) — это способность языковых моделей “думать вслух”, последовательно излагая свои рассуждения на естественном языке перед тем, как дать финальный ответ. Если раньше модели вроде ChatGPT просто порождали текст слово за словом, то новое поколение рассуждающих моделей (reasoning models), начиная с OpenAI o1 и далее везде, специально обучается проводить расширенные рассуждения в текстовом виде. Грубо говоря, CoT — это листочек для записей, который дают моделям, чтобы они записывали промежуточные шаги и гипотезы, которые не обязательно войдут в окончательный ответ для пользователя.

Весь смысл статьи “Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety” сводится к тому, чтобы сказать разработчикам лучших LLM в мире: не отказывайтесь от простого советского человекочитаемого CoT! Почему этот вопрос вдруг стал актуальным, почему человекочитаемый CoT — это так важно, и что может прийти ему на смену?

Немного об интерпретируемости

По мере роста возможностей AI-систем растут и связанные с ними риски. Одна из ключевых проблем безопасности — непрозрачность того, как именно модели принимают решения. Мы видим входные данные и результат, но процесс между ними остаётся “чёрным ящиком”, теми самыми “giant inscrutable matrices”, о которых в своё время любил рассуждать Элиэзер Юдковский. И чем больше у модели возможностей, тем больше потенциальный негативный эффект от неправильных её решений. Чем ты сильнее, тем больше ты можешь сломать; и, конечно, сейчас уже есть о чём тревожиться, ведь речь идёт о системах, способных на сложное планирование, написание кода или принятие важных решений.

Поэтому одно из центральных направлений AI safety — это как раз интерпретируемость (interpretability). Я недавно писал об этом большой пост, а Дарио Амодеи — эссе “The Urgency of Interpretability“; интересующимся рекомендую как минимум второе, но буду рад, если прочитаете и первое.

Традиционные подходы к интерпретируемости AI, в частности механистическая интерпретируемость (mechanistic interpretability), которая пытается понять, как работают нейронные сети на уровне отдельных нейронов и небольших схем, из них составленных (её как раз активно развивает Anthropic, а я подробно обсуждаю в том посте), довольно быстро прогрессируют в последнее время. Это как раз то направление, из которого год назад получился “Golden Gate Claude“:

Но всё-таки успехи там далеко не полные, мы можем иногда кое-что заметить, но до полного понимания того, как большая нейронная сеть принимает решения, нам ещё очень далеко.

Как CoT помогает безопасности AI

И вот появляется chain-of-thought “блокнотик для записей”, который даёт максимально прямой путь: если модель “думает” на человеческом языке, мы можем буквально читать её мысли! И оказывается, что эти мысли пока что действительно правдивы, и мы действительно видим, что модель думает, даже в тех случаях, когда она потом решает нас обмануть!

Авторы статьи утверждают (и это в целом бесспорное утвеждение), что мониторинг CoT представляет собой уникальную возможность для обеспечения безопасности AI-систем. Они приводят немало убедительных примеров.

Вот Meincke et al. (2024) рассказывают о том, что модели уже способны на in-context scheming (преследовать скрытые цели, не признаваясь в этом), но CoT в этой работе всегда всё выдаёт:

А Baker et al. (2025) написали целую статью про CoT monitoring, и там тоже постоянно встречаются примеры, когда модель просто честно думает, что собирается делать, даже если в итоге финальные действия выглядят безобидно:

Кажется, что это восхитительная возможность, которой надо пользоваться как можно больше.

Почему CoT может испортиться

Однако эта возможность хрупка. Korbak et al. (2025) предупреждают о нескольких факторах, которые могут её разрушить.
- Язык может стать непонятным из-за использования RL. При масштабировании обучения с подкреплением модели могут начать использовать всё менее понятные человеку “языки” для своих рассуждений. Это давно известный эффект; тот же первый автор ещё в 2022 году написал статью о том, что если дообучать обычную LLM (тогда рассуждающих и вовсе ещё не было) с наградами на основе исходов, а не текстов, то язык становится всё менее читаемым (Korbak et al., 2022).
- Оптимизация CoT, и прямая, и непрямая, портит его. Попытки сделать рассуждения короче или “безопаснее” могут привести к тому, что они перестанут отражать реальный процесс мышления модели. Здесь главные потенциальные виновники — варианты process reward models (моделей, оценивающих путь к решению в RL, а не только ответ), которые будут следить за тем, чтобы LLM не совершали “мыслепреступлений”; результатом этого, разумеется, может стать то, что модели просто не будут думать лишнего в открытом виде, а нужную информацию передадут как-нибудь иначе. Такие примеры уже известны, и даже непрямая оптимизация вроде “давайте покажем CoT людям, которые оценивают результат в RLHF, и это повлияет на их оценки” тоже может привести к обфускации CoT (Baker et al., 2025).
- Рассуждения в латентном пространстве не порождают CoT. Модели, способные проводить рассуждения в латентном пространстве без вербализации, могут полностью обойти необходимость в понятных человеку записях в “блокнотике”. Это направление сейчас весьма активно развивается, кстати (Hao et al., 2024; Geiping et al., 2025).
Что же делать?

Korbak et al. (2025) формулируют несколько конкретных рекомендаций, к которым лично я могу только присоединиться:
- Разработать эффективные метрики для того, насколько возможно следить за CoT, то есть создать стандартизированные тесты для оценки того, насколько цепочки рассуждений действительно отражают процесс “мышления” модели.
- Публиковать результаты оценок — включать информацию о возможностях мониторинга в технические отчёты о моделях.
- Учитывать эту возможность при принятии решений — рассматривать способность к мониторингу CoT как важный фактор безопасности наряду с другими метриками.
- При разработке разных методов, связанных с рассуждениями в LLM, изучать, как различные методы обучения влияют на понятность рассуждений.
Кстати, тут есть и ещё одно оптимистическое наблюдение: в реальности не всегда обязательно, чтобы мониторинг срабатывал в 100 или 99% случаев, даже когда цена ошибки велика. Было бы достаточно, если бы мониторинг можно было перезапускать так, чтобы ошибки не повторялись, а желательно не слишком коррелировали друг с другом — и тогда, понятное дело, любая константная вероятность обнаружения ошибки быстро станет очень близка к единице. В контексте LLM-агентов Bhatt et al. (2025) недавно написали об этом целую статью под названием “Ctrl-Z: Controlling AI Agents via Resampling”.

Философские размышления и выводы

Ситуация с CoT напоминает классическую проблему философии сознания: можем ли мы доверять тому, что кто-то говорит о своих мыслях? В случае с AI-моделями эта проблема усугубляется тем, что сами “мысли” являются результатом оптимизации. Модель может научиться порождать правдоподобные, но вводящие в заблуждение объяснения — и очень важно, чтобы мы никоим образом не пытались это поощрять.

Есть и ещё один фундаментальный вопрос: является ли человеческий язык необходимым инструментом для сложных рассуждений или просто удобным промежуточным представлением? Скорее всего, конечно, второе, и для того, чтобы мониторинг CoT мог стать долгосрочным решением для AI-безопасности, нам нужно приложить нетривиальные усилия. Иначе “мысли” LLM быстро станут настолько же непостижимыми, как и их внутренние активации.

Авторы честно признают ограничения своего подхода: CoT-мониторинг не панацея, и его следует использовать только как дополнительный уровень защиты. Тем не менее, пока у нас есть эта возможность заглянуть в “мысли” LLM, было бы неразумно её игнорировать. И хочется продолжать изучать, развивать и использовать мониторинг цепочек рассуждений, пока это окно в мышление LLM остаётся открытым. Ведь оно может закрыться быстрее, чем мы думаем.

Сергей Николенко
August 4, 2025
Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно
AI-модели растут, “горький урок” и законы масштабирования всё ещё работают, но растущие вычислительные требования становятся всё более неподъёмными даже для гигантов рынка. Один из ключевых вопросов современного AI — как сделать то же самое эффективнее. В этом посте я расскажу о новом подходе, который очень элегантно сочетает сразу несколько известных идей и кажется весьма перспективным.

Три пути к эффективности

Исследователи из KAIST и Google Bae et al. (2025) представили новую идею под названием Mixture-of-Recursions (MoR, смесь рекурсий). Чтобы понять, что она делает, давайте сначала вспомним три основные стратегии повышения эффективности трансформеров без радикального изменения архитектуры (без перехода на Mamba-подобные модели, например):
- Mixture-of-Experts (MoE, смесь экспертов) добавляет разреженность активаций при инференсе: в модели есть много подсетей-экспертов, и специальный роутер выбирает, какую подсеть использовать для каждого токена на каждом MoE-слое; в результате получается, что параметров у сети очень много, но на каждый токен активируется только небольшое их подмножество; MoE — это огромная наука, о которой я, надеюсь, скоро расскажу гораздо подробнее, но в общем все современные гигантские модели устроены именно так;
- layer tying (связывание слоёв) уменьшает число параметров за счёт повторного использования одних и тех же весов в разных слоях; эта стратегия используется как минимум с времён Universal Transformers (Dehgani et al., 2018) и продолжает появляться до сих пор (Gholami, Omar, 2023; Bae et al., 2025b);
- early exiting (ранний выход) тоже добавляет разреженности, как и MoE, но за счёт остановки обработки на ранних слоях для более простых токенов; идея восходит к Depth-adaptive Transformers (Elbayad et al., 2020) и продолжает развиваться; например, недавно появилась архитектура LayerSkip (Elhoushi et al., 2024).
Традиционно исследователи использовали только один из таких подходов зараз, особенно учитывая, что эти стратегии нацелены на разные вещи: связывание весов экономит память, но не время инференса, а разреженные активации или ранние выходы, наоборот, никак не уменьшают требуемую память. MoR утверждает, что можно и нужно решать обе проблемы одним архитектурным решением. Давайте сначала рассмотрим непосредственных предшественников и идейных вдохновителей MoR, а потом перейдём и к самой статье.

Mixture-of-Depths и рекурсивные трансформеры

Первым важным предшественником этой работы стала идея Mixture-of-Depths, предложенная исследователями из Google DeepMind (Raposo et al., 2024). Они ввели маршрутизацию на уровне токенов для адаптивных вычислений. В то время как MoE-модели обучают маршрутизатор выбирать между разными подсетями (экспертами), Mixture-of-Depths обучает маршрутизатор выбирать, использовать ли слой или перейти непосредственно к остаточному соединению:

А если объединить связывание слоёв и ранние выходы, получатся рекурсивные трансформеры (Recursive Transformers, Bae et al., 2025b) — модели, которые повторяют один блок из K слоёв несколько раз, создавая зацикленную архитектуру. Например, вместо 30 уникальных слоёв в рекурсивной модели будет всего 10 слоёв, которые применяются трижды, что, соответственно, втрое сокращает число параметров:

Но какой смысл применять одни и те же слои несколько раз? Ранний слой, предназначенный для работы с самими токенами, был бы бесполезен при применении к их глобальным семантическим представлениям в более высоких слоях. И действительно, было бы лучше иметь способ модифицировать слои по мере продвижения. Поэтому Relaxed Recursive Transformers (RRT, релаксированные рекурсивные трансформеры) добавляют небольшие LoRA-адаптеры к слоям, которые можно обучать отдельно для каждой итерации цикла:

Bae et al. (2025b) обнаружили, что их RRT стабильно превосходят стандартные архитектуры: если дистиллировать предобученную модель Gemma 2B в рекурсивную Gemma 1B, результаты получаются намного лучше, чем при дистилляции в обычную Gemma 1B, и приближаются к результатам исходной модели с 2B параметров.

Mixture-of-Recursions: адаптивная глубина для каждого токена

И вот в последней работе Bae et al. (2025) делают следующий шаг. Они вводят механизмы маршрутизации, которые для каждого токена индивидуально решают, сколько раз применять рекурсивные блоки. Именно поэтому подход называется “смесью рекурсий”: небольшие подсети-маршрутизаторы делают обработку токенов адаптивной, динамически назначая различную глубину рекурсии отдельным токенам. Это значит, что если нужно породить простое функциональное слово, сеть сможет остановиться после первого прохода через рекурсивный блок, а для семантически богатого слова, которое нужно подумать, чтобы предсказать, сможет использовать, скажем, три итерации.

На иллюстрации ниже показаны (a) структура маршрутизатора, который может пропустить шаг рекурсии, (b) общая структура модели и (c) пример того, как более простые токены производятся меньшим числом шагов рекурсии, чем семантически богатые:

Идея в том, чтобы дать каждому токену ровно столько времени обработки, сколько ему нужно — ни больше, ни меньше. Сами роутеры обучаются во время обучения, развивая неявное понимание того, какие токены заслуживают более глубокой обработки.

Такую адаптивную маршрутизацию можно реализовать по-разному. Авторы сравнивают две стратегии:
- expert-choice routing (маршрутизация с выбором экспертом) рассматривает каждую глубину рекурсии как “эксперта” и выбирает, какие токены он хочет обработат; этот подход гарантирует идеальную балансировку нагрузки (большая проблема для MoE-моделей: как вы убедите роутер не отправлять всё на одного и того же эксперта?), поскольку здесь каждая итерация цикла обрабатывает фиксированное количество токенов; но тут нужно долго возиться с причинностью (в смысле causality), чтобы правильно получилось авторегрессивное порождение токенов;
- token-choice routing (маршрутизация с выбором токеном) идёт более простым путём: каждый токен заранее решает, сколько шагов рекурсии ему нужно; хотя это может привести к дисбалансу нагрузки (что если все токены захотят максимум?), авторы показывают, что эту проблему можно смягчить дополнительной регуляризацией (load balancing losses).
Вот иллюстрация двух схем маршрутизации от Bae et al. (2025):

Кроме маршрутизации, эта картинка в части (с) иллюстрирует ещё и два механизма кэширования, которые в статье предложены:
- recursion-wise KV caching (рекурсивное KV-кэширование, сверху) сохраняет пары KV только для токенов, которые реально обрабатываются на каждой глубине рекурсии;
- recursive KV sharing (рекурсивное разделение KV, снизу) повторно использует пары KV, вычисленные на первом шаге рекурсии, для всех последующих шагов.
На практике оба подхода к маршрутизации дают хорошие результаты (expert-choice чуть получше), а кэширование нужно выбирать по необходимости: recursive KV sharing быстрее, но требует больше памяти, чем рекурсивное KV-кэширование.

Эмпирически у Bae et al. (2025) тоже всё неплохо получается: результаты демонстрируют, что MoR и теоретически элегантная идея, и практическую пользу приносит. При обучении с одинаковым вычислительным бюджетом MoR-модели стабильно превосходят обычные трансформеры, причём используя только около трети параметров эквивалентных стандартных моделей. Если дистиллировать Gemma 2B в рекурсивную Gemma 1B, получится модель гораздо лучше, чем если в обычную Gemma 1B, почти с такими же результатами, как исходная 2B.

Идея MoR также приводит к значительному ускорению инференса (до 2x) за счёт специального механизма continuous depth-wise batching: поскольку у вас многие токены уходят из обработки раньше других, освободившиеся места можно сразу же заполнять новыми токенами. Это тоже кажется важной идеей: получается, что состав батча всё время меняется, освободившаяся память не простаивает и обработка идёт максимально быстро.

Заключение

Mixture-of-Recursions представляется важной работой; скорее всего, это не последнее слово, но направление крутое. Пожалуй, главная критика, которая приходит на ум, состоит в том, что эксперименты пока очень маленькие: я упоминал Gemma 2B, и действительно это самая большая модель, с которой в статье есть эксперименты. Но всё-таки будет удивительно, если идея MoR вдруг перестанет работать при масштабировании.

Интересно, что MoR также естественным образом поддерживает test-time scaling: регулируя глубину рекурсии во время инференса, можно настраивать компромисс между качеством и скоростью. В некотором смысле MoR даёт естественный механизм для сложных рассуждений в латентном пространстве: раз токены могут проходить несколько раундов обработки, и это число раундов выбирает сам роутер, MoR-модель может обучиться “подумать, прежде чем говорить”.

В целом, мне кажется, что эта серия работ — Mixture-of-Depths, рекурсивные трансформеры, Mixture-of-Recursions — представляет собой очень перспективное направление. Получаются большие AI-модели, адаптивные не только в том, какие подсети они используют (как обычные MoE-модели), но и в том, сколько вычислений они используют.

Концептуально MoR представляет собой вертикальный вариант Mixture-of-Experts: вместо того чтобы распределять токены по широким экспертным матрицам, мы отправляем (или не отправляем) их дальше в глубину. Кстати, было бы очень легко объединить MoR и MoE, это естественный следующий шаг; думаю, тут это не сделано исключительно потому, что модели в целом пока что довольно маленькие. Я бы не удивился, если бы в скором времени в этом направлении появилась “3D-разреженная” модель — токены ⨉ глубина ⨉ эксперты.

Так что, как я всегда говорю, даже если физическое масштабирование так или иначе остановится (сложно уже транзисторы дальше уменьшать), алгоритмический прогресс принесёт нам ещё немало новостей и немало иксов улучшения эффективности (и по скорости, и по памяти). Будем следить за прогрессом!

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!
July 30, 2025
Deep Think и IMO 2025: сложные отношения OpenAI и математики

Главный девиз Google — “Don’t be evil” — почему-то совсем не даётся OpenAI. За что ни возьмутся, какая-то мутная ерунда получается. И хотя на этот раз результаты никто, кажется, под сомнение не ставит, давайте вспомним сложные отношения OpenAI с математикой, обсудим IMO 2025 и восхитимся Deep Think от DeepMind.

MATH: давайте добавим test в train

Начну с истории 2023 года, когда OpenAI в своей работе “Let’s Verify Step by Step” решила слегка подкорректировать правила игры. Датасет MATH (Hendrycks et al., 2021) долгое время был золотым стандартом для оценки математических способностей языковых моделей. Исследователи использовали его 7500 тренировочных и 5000 тестовых задач для сравнения своих моделей.

Что же сделала OpenAI? Они взяли 4500 задач из оригинального тестового набора MATH и… включили их в свой тренировочный датасет PRM800K. Формально всё честно: Lightman et al. открыто об этом написали в статье и не утверждали, что проводят честное сравнение с моделями, не видевшими этот тестовый набор; работа вообще была о process reward models.

Но фактически это означало конец классического бенчмарка MATH в том виде, в котором он существовал: когда PRM800K стал одним из стандартных обучающих датасетов, стало гораздо сложнее обеспечить чистоту тестовой выборки для исходного MATH. Многие исследователи теперь относятся к результатам на MATH, особенно результатам OpenAI, с большой осторожностью.

Дрейф моделей: сложные простые числа

Этот раздел не совсем про математику, но так получилось, что интересные эффекты моделей OpenAI заметили именно на математических тестовых вопросах.

Летом 2023 года исследователи из Стэнфорда и Беркли обнаружили очень странный эффект (Chen et al., 2023). Они решили проверить, как меняется производительность GPT-4 со временем, и, как говорили когда-то в интернете, “результат убил”.

Они задавали GPT одну и ту же задачу: “Is 17077 a prime number? Think step by step and then answer [Yes] or [No].” В марте 2023 года GPT-4 давал правильный ответ в 84% случаев, а к июню того же года точность упала до 51.1%! Что самое интересное — GPT-3.5 показал обратную динамику, с 49.6% в марте до 76.2% в июне. И этот эффект устойчиво проявлялся с многими разными вопросами:

Питер Велиндер из OpenAI попытался объяснить ситуацию: “Мы не делали GPT-4 глупее. Совсем наоборот: мы делаем каждую новую версию умнее предыдущей. Наша текущая гипотеза такова: когда вы больше используете модель, вы начинаете замечать проблемы, которые раньше не видели”.

Но исследователи-то проводили одинаковые тесты в разное время! Очевидно, они не просто “заметили новые баги” — модель разучилась делать то, что умела раньше.

Это было первой и самой яркой иллюстрацией того, что ведущие лаборатории часто подменяют модели прямо в production, иногда тихо и незаметно, и далеко не всегда новые модели лучше.

В целом это, конечно, нормально, хотя не до конца ясно, почему бы не оставлять доступ и к старым версиям моделей, например за деньги по API. Давеча вот была целая инициатива за то, чтобы сохранить Claude 3 Opus; надеюсь, Anthropic прислушается, но это уже другая история.

FrontierMATH: судья в доле?

В январе 2025 года разразился новый скандал, целый “бенчмарк-гейт”, на этот раз действительно про математику и действительно сомнительный.

Датасет FrontierMATH позиционируется как новый, сверхсложный математический бенчмарк от Epoch AI, содержащий только новые и неопубликованные задачи. Идея была прекрасной — создать тест, который точно не попал в тренировочные данные ни одной модели, и который содержит задачи хоть и с заранее известными ответами, но максимально близкие к исследовательской математике. Я много раз рассказывал о нём в своих докладах; последний был на CS Space митапе.

И вот OpenAI демонстрирует свою новую модель o3, которая набирает на FrontierMATH впечатляющие 25% — в то время как другие модели едва дотягивают до 2%. Величайший прорыв в математических рассуждениях? Нууу… в общем да, но не совсем, и со звёздочкой.

Оказалось, что OpenAI не просто использовала этот бенчмарк — компания профинансировала его создание и имела доступ к задачам! Более того, математики, создававшие задачи для FrontierMATH, даже не знали о связи проекта с OpenAI. Разумеется, представители Epoch AI попытались сгладить ситуацию и объяснили, что они создают специальный “holdout” набор задач, к которому у OpenAI не будет доступа, но всё это звучало очень подозрительно.

В том, насколько это мутная история, легко убедиться по самым что ни на есть первоисточникам: просто посмотрите на саму статью Glazer et al. (2024) о датасете FrontierMATH. На arXiv, который помнит всё, есть пять версий этой статьи (это нормально, статьи часто дорабатывают). В версиях до четвёртой включительно acknowledgements выглядят вот так:

А в пятой версии, появившейся 20 декабря 2024 года, мы уже видим OpenAI:

Критики, разумеется, сочли всю эту ситуацию нечестными манипуляциями и потребовали тщательного аудита результатов. Последующая независимая проверка показала, что o3-mini набирает на тестовом множестве FrontierMATH всего 11%.

Потом o4-mini показала себя гораздо лучше, и сейчас у датасета FrontierMATH две верхние строчки с огромным отрывом занимают модели OpenAI, да и дальше только Gemini 2.5 Pro может как-то конкурировать:

Но все до сих пор вспоминают объявление о 25%.

IMO 2025: хайп превыше всего

А самая свежая история, ради которой мы сегодня собрались, произошла на днях с Международной математической олимпиадой 2025 года (IMO 2025). Мы только что обсуждали, что экспериментальная модель OpenAI решила 5 из 6 задач и достигла уровня золотой медали. Результат действительно впечатляющий — это огромный прорыв для LLM.

Вот только опять оказывается, что есть нюанс. По словам инсайдеров, организаторы IMO попросили все AI-компании не красть внимание у детей и подождать неделю после церемонии закрытия, прежде чем объявлять свои результаты:

Что сделала OpenAI? Объявила результаты сразу после церемонии закрытия, но за неделю до срока, о котором просили.

Джозеф Майерс, координатор шестой задачи (единственной, которую модель OpenAI не решила), поделился мнением жюри: “Общее мнение жюри и координаторов IMO заключается в том, что это было грубо и неуместно”.

Более того, OpenAI не была среди компаний, которые сотрудничали с IMO для официального тестирования моделей. То есть, в отличие от результатов Google DeepMind, мы даже не можем быть уверены, что их “золотая медаль” полностью легитимна.

Deep Think: Google is Not Evil

И вот для контраста посмотрим, как повела себя команда Google DeepMind в аналогичной ситуации. Их модель Deep Think тоже решила 5 из 6 задач IMO 2025 — точно такой же результат, как у OpenAI. Теперь уже вышел официальный пост об этом.

Как и у OpenAI, речь идёт не об Alpha Proof 2, а о том, что обычная LLM, экспериментальный вариант Gemini под названием Deep Think, решал задачи на естественном языке:

Так что в этом смысле анонсы двух компаний полностью эквивалентны. Но есть и важные отличия.

Во-первых, Google дождалась официальной сертификации результатов IMO, прежде чем делать объявление, из уважения к участникам соревнования. Тханг Луонг из DeepMind так и говорит: “Мы подождали, пока IMO официально подтвердит результаты соревнования, а не выпустили их в выходные”.

Во-вторых — и это уже куда важнее для нас, пользователей — по словам Луонга, модель, которая участвовала в IMO, “на самом деле очень близка к основной модели Gemini, которую мы предлагаем людям”. То есть это не какая-то сверхсекретная экспериментальная разработка, а почти готовый продукт, в то время как OpenAI заявлял, что до релиза их экспериментальной модели ещё точно не меньше нескольких месяцев.

В-третьих, интересно, как по-разному выглядят решения задач.

Вот кусочек её решения от модели OpenAI:

2. Lemma: n>=4, any n-line cover of P_n must use a side of triangle.

Call boundary point set of triangle:
B_n = P_n ∩ (H_n ∪ V_n ∪ D_n): all integer points on 3 sides.
Count: each side has n lattice points. Three vertices each in two sides, no triple. So |B_n|= n+n+n -3=3n-3.

Now: L = {ℓ_1,…,ℓ_n} n distinct lines, cover all P_n. Suppose none of ℓ_i coincide with H_n,V_n,D_n.

Need contradiction for n>=4.

Geometry: T_n (filled triangle) is convex. Intersect any line ℓ with T_n:
ℓ∩T_n is empty / point / segment. If ℓ doesn’t contain whole side (that’s assumption), then ℓ∩∂T_n has at most two points (if segment, two endpoints). So: any line not equal to a side contains at most 2 points of boundary of T_n.

So each ℓ_i contains at most 2 points of B_n. So n lines cover at most 2n boundary points. But must cover all B_n (subset of P_n). Need 2n >= |B_n|=3n-3. For n>=4, 3n-3 >2n (difference n-3>0), impossible. Contradiction. So for n>=4, in any n-line cover of P_n, at least one of three side lines H_n, V_n, D_n is present. Exactly lemma. Good. (that’s main structural lemma)

So n>=4: any configuration has a boundary side line (non-sunny).

Now reduction from n to n-1.

Suppose n>=4, have n-line family L for P_n. Lemma gives side line E in L.

Remove E, get n-1 remaining lines.

Need show remaining (after appropriate translation) is configuration for P_{n-1}, same #sunny.

Three cases:

1) E = D_n: hyp line x+y=n+1. P_n \ D_n = {integer>=1 with sum<=n} = P_{n-1} exactly. D_n only hits sum=n+1 points, disjoint from P_{n-1}. So remaining n-1 lines alone cover P_{n-1}. Done, no transform.

2) E=H_n (y=1). Remaining points of P_n besides H_n: y>=2. Mapping down by 1 in y:
bijection T: (x,y+1) ↔ (x,y), between P_n \ H_n and P_{n-1}. Exactly: if (a,b) in P_{n-1}, (a,b+1) in P_n, y>=2, sum a+b+1<=n+1. Conversely. Take remaining n-1 lines ℓ in L{H_n}, translate downward by vector (0,-1). family L’ size n-1. For any p in P_{n-1}, p+(0,1) is in P_n \ H_n, covered by some ℓ; shift ℓ down, p covered by ℓ’. So L’ covers P_{n-1}. Translation preserves direction -> sunny status same.

3) E=V_n (x=1), same via shift (-1,0). Exactly same.

So any n-line cover for P_n (n>=4) -> n-1-line cover for P_{n-1}, same #sunny.

So iterate: for n>=4, reduce n -> n-1 -> … -> 3. Each step n>=4 (when parameter>=4) lemma applies. So any configuration for P_n (any n>=4) produces configuration for P_3 with same number of sunny lines. So possible k for n>=4 are subset of K_3. Great…

Прочитать в целом можно, и написано в целом на английском языке, конечно. Но вот кусочек из решения той же задачи от Deep Think:

Модель от DeepMind пишет гораздо более “человечные” и понятные решения. Почему так, разумеется, непонятно: что вдруг заставило модель OpenAI перейти на этот птичий язык? Да и наверняка можно попросить ту же или другую модель переписать решения от OpenAI более понятно. Но это отчасти подтверждает заявления о более близком релизе.

Заключение: немного о репутации

История отношений OpenAI с математическими бенчмарками читается как пример того, как не надо строить репутацию в научном сообществе. Каждый раз компания технически ничего не нарушает, но каждый раз оставляет неприятный осадок.

Изменение правил игры с MATH датасетом? Формально всё честно. Странный дрейф производительности моделей? Никто никому ничего не обещал. Тайное финансирование FrontierMATH? Ну, они же потом раскрыли информацию. Игнорирование просьбы IMO? Они не были обязаны соблюдать эмбарго, да и технически их никто не просил, потому что они с IMO не сотрудничали.

Но в совокупности эти истории рисуют не слишком приятный образ OpenAI, и осадочек всё накапливается и накапливается (хотя о чём это я, осадок от OpenAI уже давно высыпается из бокала).

В итоге получается странно: и в истории с FrontierMATH, и с IMO 2025 OpenAI ведь и правда сделала большие прорывы в решении математических задач. Текущие результаты o4-mini на FrontierMATH никто под сомнение не ставит, да и решения задач IMO, скорее всего, получены честно. Но я абсолютно уверен, что репутация OpenAI от этих историй проиграла, а не выиграла. И зачем, спрашивается, так было делать?

Как говорится, я решил пятьдесят задач из FrontierMATH, но никто не называет меня “Сэм-Великий-Математик”; я решил пять из шести задач IMO 2025, но никто не называет меня “Сэм-Чемпион-Олимпиад”…

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура “: присоединяйтесь!

July 22, 2025
Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?
Совсем недавно я рассказывал об LLM для математики на митапе CS Space, и вот появилась мощная новость на эту тему. Говорят, новая модель от OpenAI, которая ещё не скоро будет опубликована, смогла нарешать на золотую медаль IMO 2025! Но ведь ещё год назад AlphaProof не хватало одного балла до золота IMO 2025, так что же здесь удивительного? Давайте разберёмся по порядку: начнём с того, чем был прошлогодний AlphaProof, а потом перейдём к последней новости.

Кто же выиграл серебро? AlphaGeometry и AlphaProof

История AlphaProof началась с модели AlphaGeometry (Trinh et al., 2024), которая совмещала LLM и символьные вычисления в духе DeepMind’овских моделей вроде AlphaTensor. Чтобы решить геометрическую задачу, нужно уметь:
- выводить все факты об объектах, которые можно увидеть на рисунке;
- делать новые построения, которые добавят новые объекты, о которых можно повыводить факты.
Первый пункт здесь в основном чисто технический и формальный, а творчество состоит во втором пункте. Поэтому в AlphaGeometry LLM порождает идеи для новых построений, а symbolic engine выводит из них всё, что можно:

AlphaGeometry решал геометрические задачи на уровне серебра IMO. Потом появилась AlphaGeometry 2, на модели Gemini получше и на большем синтетическом датасете.

Ну а потом перешли и к не-геометрическим задачам. В системе AlphaProof (DeepMind, 2024; см. также презентацию) LLM соединяется с Lean, системой для порождения и проверки формальных доказательств (proof assistant). Специально дообученная модель Gemini переводит естественный язык в формальную постановку, а потом RL в стиле AlphaZero обучается искать доказательство в Lean:

Здесь солвер (solver network) — это модель, которая выбирает следующий “ход” в виде Lean tactic, как AlphaZero. Солвер обучается сначала с учителем на mathlib, большой библиотеке проверенных формальных доказательств, а потом обучением с подкреплением, где Lean проверяет порождённые доказательства.

Солвер учится доказывать так же, как AlphaZero учится играть в шахматы, это поиск по дереву; а LLM даёт формализацию и новые идеи. По мере решения задач они добавляются в обучение, т.е. сам собой получается curriculum learning от простого к сложному.

В итоге AlphaProof вместе с AlphaGeometry 2 дошли до уровня серебряной медали на IMO 2024, минус один балл от золота:

Это направление, конечно же, продолжается и сегодня, и есть масса работ о том, как соединить формальные доказательства с LLM. Наверное, самый громкий недавний релиз — это DeepSeek-Prover-V2 (Ren et al., 30 апреля 2025): LLM, специально дообученная для формальных доказательств в Lean 4:

Сейчас обычно именно его используют в дальнейших таких исследованиях (например, DREAM от Cao et al., June 20, 2025, или LeanConjecturer от Onda et al., June 27, 2025), но сам по себе DeepSeek-Prover-V2, конечно, никакого золота IMO не выиграет.

LLM до сих пор: Proofs and Bluffs

Выходит, AlphaProof — это что-то очень сложное, что нам с вами не запустить. Мне не до конца понятно, почему мы не знаем результатов AlphaProof на FrontierMath и тому подобных более “научных” датасетах, но нам, пользователям, в любом случае интереснее, как работают те LLM, к которым мы можем получить доступ (хотя бы в некотором будущем). Как же “чистые” LLM, без обвязки и дообучения подобно AlphaProof, справляются со сложными олимпиадными задачами?

В докладе на митапе я остановился на отрицательном результате. В работе под названием “Proof or Bluff” Petrov et al. проверили, как LLM справятся с 2025 USA Math Olympiad, которой точно не было в обучающей выборке. Просили писать полное доказательство и проверяли как людей. Оказалось, что результаты были почти нулевыми, максимум 2 балла из 42 у DeepSeek R1:

Разумеется, и этот результат в итоге оказался не таким обескураживающим, как кажется. Первая версия “Proof or Bluff” вышла 27 марта 2025 года, а буквально через неделю вышла Gemini 2.5 Pro, и Petrov et al. пришлось срочно обновлять табличку! В версии от 9 апреля Gemini 2.5 Pro решает уже одну задачу совсем хорошо и другую наполовину, 10 баллов из 42:

А 29 мая появился новый бенчмарк: исследователи из ETH Zurich Balunovic et al. (2025) сделали бенчмарк MathArena, который призван как раз сравнивать LLM на разных математических олимпиадах. Они сравнили o3, o4-mini, Gemini-2.5-Pro, Grok-4 и Deepseek-R1, причём старались делать это по-честному, с максимальной “силой” модели:
- порождали по 32 ответа для каждой модели и выбирали лучший самой же моделью (best-of-32); это хороший способ улучшить результат, особенно в задачах на доказательство;
- проверяли полученные решения руками, четырьмя профессиональными судьями, у которых был опыт проверки IMO и других олимпиад.
В частности, такой эксперимент провели и на IMO 2025. И вот что у них получилось:

Получился огромный прогресс по сравнению с тем, что было в конце марта: Gemini 2.5 Pro уже набрала довольно много баллов… но это далеко не золото. Пост от создателей бенчмарка так и назывался: “Not Even Bronze“.

Новая модель OpenAI: золото IMO для “чистой” LLM

И с этим мы подходим к 18-19 июля 2025 года, когда исследователи из OpenAI объявили, что их новая модель смогла добраться до уровня золота IMO 2025. У нас пока не так много информации: тред Alexander Wei, репозиторий с решениями задач и тред Noam Brown; если честно, мне кажется, что это “пока” ещё надолго, OpenAI ещё очень долго не планируют релиз этой экспериментальной модели.

И тем не менее кое-какие важные детали мы узнали:
- это general reasoning LLM, не система вроде AlphaProof или DeepSeek-Prover; иначе говоря, это обычная LLM вроде o3-pro, только лучше, следующая итерация;
- очевидно, там было много улучшений, но главное, о чём пишут Wei и Brown — это следующий шаг в масштабировании test-time reasoning; современные модели “размышляют” в течение считанных минут подряд (Deep Research не совсем считается, там скорее много небольших размышлений объединены), а эта секретная модель может думать уже в течение пары часов;
- кстати, о часах — модель участвовала наравне с людьми, в течение двух четырёхчасовых сессий; это тоже важно, потому что, например, AlphaProof в прошлом году решал задачи, кажется, трое суток;
- оценивали тоже наравне с людьми, три судьи с опытом оценки настоящих IMO; в результате модель набрала 35 баллов из 42, решив пять задач из шести; кстати, если это значит, что 5 из 6 решены на 7 баллов, а шестая никак (Wei не уточняет), то это тоже шаг вперёд от текущих LLM, которые всё время чего-то недоговаривают и набирают частичные баллы, даже если идея правильная.
Я хотел было обсудить какую-нибудь задачу из IMO 2025 и её решение новой моделью OpenAI… но быстро сдался. Решения выглядят хоть и читаемо в целом, но разбираться в них нелегко; вот типичный кусочек:

3. Analyze n=3 exactly.

S := P_3 = {positive ints (a,b), a+b<=4}: 6 points.
List as:
A=(1,1), B=(1,2), C=(1,3), D=(2,1), E=(2,2), F=(3,1). Exactly 6.

First enumerate non-sunny lines’ intersections with S.

Non-sunny directions: vertical x=const, horizontal y=const, diagonal x+y=const.

Inside S:
Verticals: x=1: {A,B,C} (size3), x=2:{D,E} size2, x=3:{F}.
Horiz: y=1 {A,D,F} size3, y=2 {B,E} size2, y=3 {C}.
Diagonal: sums:2:{A} ,3:{B,D} size2, 4:{C,E,F} size3.
So any non-sunny line intersection with S is subset of one of:
three size3 sets: {A,B,C}; {A,D,F}; {C,E,F};
three size2: {B,E}; {D,E}; {B,D}. (size1 irrelevant).

So far.

Надеюсь, Фёдор Петров, который на митапе рассказывал про LLM и олимпиадные задачи, разберётся. Я готов поверить, что умными людьми уже проверено; достижение в любом случае замечательное.

На Manifold был на этот счёт prediction market, на котором отметились даже такие люди, как Пол Кристиано и Элиэзер Юдковский. В 2022 году Кристиано писал: “I’d put 4% on “For the 2022, 2023, 2024, or 2025 IMO an AI built before the IMO is able to solve the single hardest problem… Maybe I’ll go 8% on “gets gold” instead of “solves hardest problem”.” Юдковский был более оптимистичен: “My probability is at least 16% [on the IMO grand challenge falling]”.

Не будем их критиковать: в 2022 предсказать реальную скорость прогресса было очень сложно. Но сейчас линия этого предсказания выглядит вот так:

Заключение

Заглавная картинка в посте — намёк на знаменитый мем о сборной США на IMO. Может быть, скоро роботы превзойдут людей и в математических олимпиадах. Но главное, конечно, не в том, чтобы решать олимпиадные задачки. Шахматы не умерли с появлением сверхчеловеческих движков (а скорее набрали популярность), и математические олимпиады как соревнования между людьми не умрут.

Главное в том, сможет ли этот прогресс превратиться не просто в спортивный успех, а в новые математические результаты. А где математические, там и алгоритмические, а там и пресловутый self-improvement, первые шаги которого мы только что видели в AlphaEvolve.

И вот это уже очень, очень интересный вопрос.

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура ”: присоединяйтесь!
July 20, 2025
Люди против роботов: пьеса в трёх модальностях

Митап “LLM в математике и алгоритмах” прошёл 5 июля 2025 года, и прошёл категорически успешно. Напишу о нём, когда появятся хорошие фотографии, а сейчас расскажу вам о квизе, который я для митапа подготовил и провёл.

Идея была в том, чтобы сделать такой квиз, на котором LLM смогут соревноваться с людьми, и ни у людей, ни у “роботов” не будет заведомого преимущества. Про один из туров — обычное ЧГК из базы — у меня особых сомнений не было: хотя я ещё в октябре 2024 года заметил, что рассуждающие LLM могут играть в ЧГК, тут пока несложно найти вопросы, на которых заведомого преимущества не будет. Например, у всех LLM сложно с игрой в буквы, потому что токены с буквами не сходятся (да, считать r в strawberry тоже сложно именно по этой причине), а если это ещё и по-русски происходит, то вообще, скорее всего, до свидания.

Но хотелось и как-то разнообразить программу, например сделать туры с разными модальностями. Это бы тоже могло оказаться сложным или хотя бы интересным для LLM. Спросил об этом Claude… и, конечно, тут же получил прекрасные идеи. Вот буквально под номерами 1 и 2 шли идеи, которые в итоге и попали в квиз:

Так что для второго тура я подобрал несколько интересных фотографий рукописей великих математиков. Получилось, кажется, действительно интересное задание; вот как, например, Гротендик иллюстрировал теорему Римана-Роха:

А со звуком опять попросил Claude написать код, который этот звук сгенерирует — и он, конечно же, без проблем справился. Правда, в итоге выяснилось, что эту конкретную идею всё-таки Claude не сам придумал, а взял из “Sound of Sorting” Тимо Бингманна, так что звуки алгоритмов поиска я сгенерировал, а для алгоритмов сортировки взял из готового видео.

Квиз мы больше нигде играть не будем, так что вот, выкладываю финальную презентацию:

Квиз против LLM — LLM в математике и алгоритмах — 5 июля 2025 года

И вот результаты (ссылка на табличку):

Давайте немного их проанализируем. Как и ожидалось, LLM было сложно со звуком. Claude просто не принимает звук на вход, так что из раунда был дисквалифицирован. А вот o3-pro и o4-mini-high, казалось бы, всё поняли, но почему-то ответов правильных дали мало. Вот как o3-pro идеально разложил аргументы про алгоритмы сортировки (аудио можно послушать в видео)… но почему-то все перепутал, я даже засомневался, не было ли какой ошибки в названиях файлов:

С картинками LLM справились почти идеально, в этом они куда лучше людей. Только задание про первую языковую модель Андрея Андреевича Маркова вызвало серьёзные проблемы у LLM — справился только o3-pro, а остальные писали что-то про криптографию:

А вот с ЧГК получилось, как я и ожидал, по-разному. Например, вот первый вопрос:

Алгоритм Дейкстры позволяет искать в графе кратчайшие пути, начинающиеся в стартовой вершине. Есть вариант его запуска из стартовой и конечной вершин одновременно. Юрий Натаров предложил для этой модификации в название алгоритма добавить четыре буквы. Какие?

Здесь я ожидал, что с буквами будут проблемы, и действительно, из LLM не взял никто; правда, проблемы оказались скорее с юмором и пониманием сути ЧГК, потому что почти все модели ответили Bidi от bidirectional, что логично, но совершенно не смешно и не повод для вопроса:

Лучше всех здесь снова выступил o3-pro — его идея не соответствует форме вопроса, но это всё равно гениально:

Другая забавная версия получилась на вопросе 4:

Альберту Эйнштейну приписывают фразу: “Не знаю, чем будут воевать в Третьей мировой войне, а в Четвёртой — камнями и палками”. Андрей Курпатов полагает, что “предупредительный камень” перед Четвёртой мировой был брошен уже в 2016 году. Так он характеризует событие, участники которого… делали что?

Большинство LLM ответили правильно, но Claude нашёл возможность проявить свою гражданскую позицию:

Вопрос 5 тоже задумывался как безнадёжное для LLM задание “пошути как автор пирожка, да ещё и не зная, что это пирожок”:

В одном шутливом произведении математик бродит по НЕМУ, удивляясь элементарности задач. “Здесь минус сорок, например”, — ворчит математик. Назовите ЕГО одним словом.

И действительно, ни одна LLM не взяла, но версии породили забавные:

А в целом вышло так, что только o3-pro по сумме трёх раундов победила всех человеков. Да и то скорее за счёт того, что картинки рукописей o3-pro скорее всего подгугливала, и запретить ей это не получалось. Но очевидно, что этот фронтир тоже потихоньку движется вперёд; надеюсь, что LLM скоро всё-таки смогут и юмор понимать, и буквы переставлять, и вообще станут полноценными ЧГК-помощниками и тренерами.

В этом уж точно нет ничего апокалиптического, сплошные плюсы.

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура ”: присоединяйтесь!

July 6, 2025
The Illusion of The Illusion of The Illusion of Thinking
Это не просто кликбейтное название поста с мета-юмором, а реальное название препринта на arXiv, вышедшего 26 июня 2025 года. Очевидно, это была уже как минимум третья итерация какого-то спора – но в чём был спор и о чём вообще речь? Давайте разберёмся.

The Illusion of Thinking

История началась 7 июня, когда исследователи из Apple Shojaee et al. опубликовали статью с громким названием «Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач». Уже само название звучало очень громко, и результаты заявлялись интересные — неудивительно, что статья вызвала большой ажиотаж.

Методология исследования выглядела элегантно. Вместо стандартных математических тестов, которые могут быть «загрязнены» попаданием решений в обучающие выборки, учёные обратились к классическим головоломкам из информатики: ханойская башня, задачам о переправе через реку, Blocks World и т.д. Задумка была в том, чтобы плавно наращивать сложность, сохраняя логическую структуру. Например, в задаче о ханойской башне нужно было выписать последовательность ходов:

Результаты оказались обескураживающими. Исследователи выявили три режима работы моделей:
- при низкой сложности обычные модели неожиданно обходили рассуждающие модели;
- при средней сложности дополнительное время на обдумывание в продвинутых моделях давало некоторое преимущество;
- но при высокой сложности все модели терпели полный крах.
Самое интересное (по мнению Shojaee et al.) — в том, что модели словно сдавались, не дойдя до предела. Вместо того чтобы попытаться что-то сделать со сложной задачей, модель заранее признавала поражение:

Более того, исследователи попробовали добавить в промпт буквально описание алгоритма, по которому решаются все эти задачи, и это моделям никак не помогло, результаты не изменились.

Что же, получается, не нужны рассуждающие модели? Не совсем…

The Illusion of the Illusion of Thinking

Реакция сообщества была предсказуемой: скептики торжествовали, энтузиасты искали изъяны в методологии Shojaee et al. И очень быстро нашли! Разных критических комментариев было много, но давайте разберём только самый знаменитый из них.

10 июня на arXiv появилась статья «The Illusion of the Illusion of Thinking» (Opus, Lawsen, June 10, 2025), первым автором которой значился… C. Opus из Anthropic. Та самая рассуждающая модель, которую только что обвинили в неспособности мыслить, выступила первым автором критического разбора этого обвинения. Вероятно, это нарушило какие-то правила arXiv, так что теперь авторство и название уже другие, но arXiv всегда помнит первую версию.

Автор-человек, Alex Lawsen из Open Philanthropy, позже признался, что всё началось как шутка. Из поста «When Your Joke Paper Goes Viral»: «Я подумал, что будет забавно написать ответную статью в соавторстве с Claude Opus. Изложил замеченные проблемы, дал их Claude, немного поработали вместе… собрал pdf да и поделился в Slack с друзьями».

Но шутки здесь оказалась только небольшая доля. Claude и Лоусен обнаружили в исследовании Apple три весьма критических изъяна.

Во-первых, модели там, где исследователи фиксировали «провал» в решении ханойских башен, чаще всего модели всего-навсего упирались в лимит токенов. Представьте, что вам дают решить задачу на умножение тысячезначных чисел и один небольшой листочек бумаги. Модели буквально писали в своих ответах: «Паттерн продолжается, но я остановлюсь, чтобы сэкономить токены» — а автоматическая система оценки засчитывала это как неудачу.

Вторая проблема была ещё более, гм, конфузной: задачи о переправе через реку для N ≥ 6 были математически неразрешимы из-за недостаточной вместимости лодки! Как выразились Claude и Лоусен, это «всё равно что штрафовать SAT-солвер за ответ “unsat” на неразрешимой формуле».

Ну и в-третьих, разумеется, когда вместо перечисления всех ходов модели попросили написать алгоритм решения, все они справились блестяще. Модели прекрасно знают, как решать Ханойские башни — но их заставляли выписывать 32767 ходов (для N=15) вместо демонстрации понимания принципа, а на это их «блокнотика» уже не хватало. Разумеется, именно поэтому алгоритм им и не помогал: модели прекрасно знают алгоритм для решения ханойских башен и сами, им не нужна в этом помощь.

The Illusion в кубе: реакции на реакцию

Реакция AI-сообщества и на статью, и на опровержение, написанное вместе с Claude, была неоднозначной. Многие, включая меня, соглашаются с критическими комментариями. Некоторые решили занять сторону Shojaee et al. и критиковать критику. И действительно, текст Claude и Лоусена содержал некоторые довольно очевидные ошибки (см., например, здесь).

Но всякий раз, когда люди пытались защитить оригинальную статью, а не искать недостатки в Opus, Lawsen (2025), они терпели неудачу. Как яркий пример я выделю пост Гэри Маркуса, в котором перечислены несколько аргументов против опровержений… но на их реальное содержание не даётся никакого существенного ответа. Более того, настоящая критика там смешивается с очевидными «соломенными чучелами» вроде «главный автор статьи был стажером» — может, Маркус и нашёл такой твит на просторах сети X, но разбирать этот «аргумент» наравне с аргументом «от LLM требовалось решать нерешаемые задачи», мягко скажем, некорректно. Гэри Маркус пошёл и ещё дальше: он даже опубликовал статью для The Guardian под названием «When billion-dollar AIs break down over puzzles a child can do, it’s time to rethink the hype», что, конечно же, породило свою собственную мини-волну хайпа, но это уже другая история.

Но я обещал третью производную. 16 июня вышла работа «The Illusion of the Illusion of the Illusion of Thinking», на этот раз в соавторстве G. Pro и V. Dantas. Кажется, потихоньку рождается новая академическая традиция…

Этот, уже третичный, анализ утверждает, что, хотя Claude и Лоусен действительно нашли контраргументы, которые сводят на нет самые серьёзные утверждения исходной статьи, всё же интересно было бы подробнее изучить природу ограничений рассуждающих моделей. Модель знает алгоритм и легко может записать его в виде кода, но действительно не способна без ошибок записать 32767 ходов подряд, нужных для решения ханойской башни с 15 дисками, даже при неограниченном бюджете токенов. Это тоже может быть интересным выводом из исследования.

Заключение

Конечно, у работы Shojaee et al. (2025) есть неустранимые недостатки. Наши методы оценки должны быть корректными и соответствовать системам, которые мы пытаемся оценить. Разумеется, стоит проверить, действительно ли тестовые головоломки имеют решения, прежде чем заявлять, что AI-модели не могут их решить. Но указывает ли эта работа на какие-то реальные ограничения, которые говорят нам что-то новое о современных AI-системах? Есть ли здесь какие-то уроки, которые можно извлечь?

Здесь я, пожалуй, просто порекомендую пост Лоуренса Чана. Он помещает все это в контекст давних дискуссий об ограничениях систем ИИ и нейронных сетей в частности, от книги Минского и Пейперта, критикующей перцептроны, до аргументов из вычислительной сложности (Chiang et al., 2023), набора данных ARC-AGI и гораздо более простого аргумента в духе Shojaee et al. (2025) о том, что LLM не могут умножать 15-значные числа.

А вот motte-and-bailey мем от Чена, который кратко объясняет, почему (интерпретация Гэри Маркуса) статьи Shojaee et al. (2025) неверна:

В общем, на выходе ничего потрясающего основы из этой статьи, конечно, не получилось. Рассуждающие модели всё так же работают, это даже не то чтобы хороший пример jagged frontier возможностей LLM, который действительно существует. Но мне кажется, что случай интересный: во-первых, он породил интересную дискуссию, а во-вторых, в этой дискуссии уже открытым текстом слышен голос языковых моделей. Кажется, и академический мир уже не будет прежним…

Сергей Николенко

P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!
July 2, 2025