Category: AI по-русски

  • AI в 2025, часть I: LLM, агенты и test-time scaling

    AI в 2025, часть I: LLM, агенты и test-time scaling

    Введение

    Итак, 2025 год закончился, и я наконец-то собрался с духом написать большой обзор того, что произошло в мире искусственного интеллекта за этот год. Обзор получается большим, так что я решил разбить его на части — и сегодня начну с самого очевидного: больших языковых моделей и агентов на их основе.

    Честно говоря, каждый из последних лет можно было бы назвать прорывным для AI. Но конкретные направления прорывов всё-таки меняются. Если 2023-й был годом ChatGPT и массового осознания того, что языковые модели — это серьёзно, а 2024-й — годом мультимодальности и первых робких шагов к рассуждениям, то 2025-й я бы однозначно назвал годом рассуждающих моделей. И это не просто маркетинговое слово — здесь действительно произошёл качественный скачок.

    Давайте разбираться, что же случилось.

    Большие рассуждающие модели

    Если выбирать одну главную идею, определившую 2025 год, это безусловно large reasoning models — модели, которые умеют “взять паузу” и подумать перед тем, как ответить. OpenAI запустили этот тренд в конце 2024-го с серией o1, а затем началась гонка, кто первый сможет повторить результат OpenAI. Эту гонку выиграл китайский стартап DeepSeek со своей моделью R1 (DeepSeek-AI, январь 2025).

    Сами модели

    OpenAI был первым, DeepSeek — вторым, а дальше понеслось. Практически каждая крупная лаборатория выкатила свои рассуждающие модели, и за год успело смениться несколько поколений. Отмечу только самые последние:

    • Google запустил Gemini 3 Pro и Deep Think в ноябре 2025-го — это была первая модель, которая пробила барьер в 1500 Elo на LMArena (да, рейтинги постоянно меняются, но факт остаётся фактом);
    • Anthropic выпустил Claude 4.5 в трёх вариантах (Haiku, Sonnet, Opus) с сентября по ноябрь; Sonnet достиг 77.2% на SWE-bench Verified, что стало лучшим результатом для реальных программистских задач, и Claude 4.5 стал основой для Claude Code, о котором мы поговорим ниже;
    • OpenAI ответил в декабре моделью GPT-5.2 в трёх вариантах: Instant для быстрых ответов, Thinking для глубоких рассуждений и Pro для максимальной точности;
    • китайские лаборатории отстают, но не сильно: DeepSeek-V3.2 интегрировал рассуждения в работу с инструментами (tool use), а Qwen3-235B от Alibaba стал одной из лучших открытых MoE-моделей с 235 миллиардами параметров (22 миллиарда активных);
    • Meta выпустила Llama 4 с вариантами Scout и Maverick, а xAI с Grok-4.1 вышла в топ reasoning-лидербордов, хотя здесь я, признаться, куда более скептично настроен.

    Что объединяет все эти модели? У них есть режим chain-of-thought, при котором модели выдают секретный “блокнотик” (scratchpad, так и называется), куда можно писать токены, которые будут использоваться только для рассуждений и потом не станут частью собственно ответа для пользователя.

    Такой подход идеально укладывается в схему обучения с подкреплением: теперь у модели есть “промежуточные ходы” (токены рассуждения), за которые она не получает награду, а собственно сигнал приходит только с “результатом партии” (окончательным ответом модели):

    Оказалось, что эта простая идея действительно способна сделать модели существенно “умнее” (пока в кавычках, но скорее по привычке, честно говоря).

    Обычно это буквально слайдер, регулирующий, сколько можно подумать перед ответом. GPT-5.2, например, сам может решить, нужно ли запускать chain-of-thought и сколько токенов на это потратить. На простых задачах ответ приходит за секунды, на сложных — модель может думать десятки секунд, а то и минут, но зато выдаёт более точный результат.

    Как это работает: RLVR

    За большинством рассуждающих моделей стоит техника под названием reinforcement learning with verifiable rewards (RLVR, обучение с подкреплением с верифицируемыми наградами). Это буквально указанная выше схема; разница только в том, что если ваша задача подходит для RLVR, это значит, что награду вы можете вычислить автоматически (например, проверить ответ на математическую задачу), а не полагаться на экстраполяцию человеческих предпочтений, как в RLHF:

    Эту ключевую идею хорошо объяснил, например, Андрей Карпатый в своём обзоре «2025 LLM Year in Review»: если обучать LLM на задачах с автоматически проверяемыми ответами (математика, код, головоломки), модели спонтанно развивают стратегии, которые выглядят как рассуждения.

    Они учатся разбивать задачу на промежуточные шаги, проверять себя, возвращаться и пробовать по-другому. Никто не задаёт это явно в структуре модели или обучающей выборки — это emergent behaviour, поведение, возникающее само собой. И оказалось, что RLVR даёт отличное соотношение прироста результатов на потраченный доллар. Карпатый отмечает, что это, возможно, главный тренд 2025-го: вместо того чтобы тратить весь вычислительный бюджет на pretraining, его стали эффективнее использовать для обучения рассуждениям.

    Рассуждения естественным образом приводят к идее test-time compute scaling: если дать модели больше “времени на подумать”, результаты улучшаются. Раньше в машинном обучении было мало примеров, когда можно эффективно обменять вычисления во время применения модели (inference) на качество результата. Теперь это умеет каждая frontier LLM.

    Но об этом — чуть позже, в отдельном разделе. Сначала давайте посмотрим на самые впечатляющие результаты.

    Математика и программирование: золотые медали

    RLVR особенно хорошо работает в областях, где решения можно проверить автоматически. И здесь 2025-й принёс просто фантастические результаты.

    Международная математическая олимпиада

    IMO стала де-факто бенчмарком для математических способностей AI. В 2025-м и Google DeepMind, и OpenAI достигли уровня золотой медали, набрав 35 из 42 баллов. Об этом я уже рассказывал в двух постах: “Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?” и “Deep Think и IMO 2025: сложные отношения OpenAI и математики“, так что повторяться не буду.

    Отмечу только, что подход Google с Gemini Deep Think особенно интересен. В отличие от прошлогодних AlphaProof и AlphaGeometry, которые требовали перевода задач в формальные языки вроде Lean, Deep Think работает end-to-end на естественном языке. Он читает условие задачи и выдаёт строгое математическое доказательство напрямую. Ключевая инновация — параллельное обдумывание (parallel thinking): модель одновременно исследует несколько стратегий решения и комбинирует их, вместо того чтобы идти по одной линейной цепочке рассуждений.

    OpenAI достигли такого же результата с минимальной IMO-специфичной подготовкой — по их словам, это в основном general-purpose RL и test-time compute scaling.

    А главной новостью конца года в этом направлении стало то, что DeepSeek выложил в открытый доступ DeepSeek-Math-V2 — первую открытую модель уровня золотой медали IMO (Shao et al., ноябрь 2025). Она решила 5 из 6 задач IMO 2025 (как и модели OpenAI и Google) и набрала почти идеальные 118/120 на Putnam 2024, превзойдя лучший человеческий результат в 90 баллов.

    Инновация DeepSeek — self-verification framework: специальный верификатор оценивает строгость и полноту доказательств, которые порождает proof generator, имитируя процесс самопроверки у математиков-людей. Результаты растут с числом итераций самопроверки:

    Олимпиады по программированию

    Революция затронула и соревновательное программирование. В сентябре и OpenAI, и Google показали сильные результаты на International Collegiate Programming Contest (ICPC) — на новых, ранее не публиковавшихся задачах. Об олимпиадах по программированию я рассказывал в посте “ICPC, IMC и Максим Туревский“; про результаты AI-моделей там, правда, почти ничего не было, ну да и ладно.

    DeepSeek-V3.2 собрал целую коллекцию, особенно впечатляющую, учитывая, что это открытая модель:

    • IMO 2025: золотая медаль (35/42),
    • IOI 2025: золотая медаль (492/600, 10-е место),
    • ICPC World Finals: второе место (10/12 задач),
    • CMO 2025: золотая медаль.

    Можно, конечно, сказать, что это показывает, как open-source модели способны реально конкурировать с проприетарными в специализированных задачах… Но, если честно, это всё-таки соревнования, то есть бенчмарки с придуманными людьми задачами и известными решениями. А что насчёт “настоящей” математики — доказательства новых теорем? Об этом мы поговорим в следующих частях обзора, а пока вернёмся к LLM.

    Reasoning + Tools = Agents

    Настоящая сила рассуждающих моделей проявляется, когда их соединяют с инструментами (tools). Если модель умеет вызывать API, запускать код, искать в интернете — она превращается в автономного агента, который разбивает задачу на подзадачи, выполняет их и итерируется до результата.

    Model Context Protocol

    Model Context Protocol (MCP), который Anthropic выпустил в ноябре 2024-го, в 2025-м получил массовое принятие индустрией. OpenAI присоединился в марте, Microsoft и GitHub вошли в steering committee в мае, а в декабре протокол был передан в Linux Foundation’s Agentic AI Foundation (совместно основанный Anthropic, Block и OpenAI при поддержке Google, Microsoft, AWS и других).

    К концу года у MCP было уже под сто миллионов загрузок SDK в месяц, тысячи серверов и 75+ коннекторов в одном только Claude. Иллюстрацию ниже я взял из поста подкаста Latent Space, авторы которого гордились тем, как предсказали успех MCP ещё в марте:

    MCP даёт стандарт того, как AI-агенты взаимодействуют с внешними инструментами, превращая их из моделей, которые умеют только работать с текстом, в полноценных ассистентов, способных сделать практически всё, что можно сделать за компьютером.

    Computer use

    Кстати, о компьютерах. Возможности работы ведущих моделей с компьютером (то есть их способность управлять вашим десктопом за вас, выполняя при этом полезную работу) выросли за прошедший год очень сильно. Результаты Claude на OSWorld (бенчмарк для автоматизации десктопа) выросли с 14.9% до 61.4% за год — это уже близко к человеческому уровню, составляющему 70-75%.

    OpenAI Operator, запущенный в январе 2025-го как research preview и интегрированный в ChatGPT к июлю, уже сотрудничает с DoorDash, Instacart, Uber и другими сервисами для выполнения реальных задач.

    Coding agents

    Но, пожалуй, самое важное применение для LLM-агентов пока — это программирование. Здесь понятно, куда масштабироваться, и относительно легко проверять результаты.

    Знаменитый график METR с “горизонтом выполнимых задач” теперь показывает Claude Opus 4.5 на первом месте, с задачами длительностью почти 5 часов, выполняемыми с 50% точностью. Это, честно говоря, уже очень близко к полной замене человеческих программистов (да, конечно, ещё не совсем там, но всё же):

    Как был достигнут этот прогресс? Начну с нескольких интересных академических работ.

    ReTool (Feng et al., апрель 2025) показал, что при помощи RL модели могут научиться, когда и как вызывать интерпретаторы кода во время рассуждений — и это способность, которую обычное обучение с учителем дать не может. Они используют слегка модифицированный алгоритм PPO, изменённый так, чтобы лучше отражать внутренние рассуждения:

    Что особенно интересно, модель в результате демонстрирует эмерджентные метакогнитивные способности (emergent metacognitive capabilities): она учится распознавать ошибки в коде по сообщениям интерпретатора, рефлексирует на естественном языке (“Oops, the functions need to be defined in the same scope”) и порождает исправленные версии. Такой “code self-correction” никогда не была явно обучена — она возникает из outcome-driven RL.

    Метод Search-R1 (Jin et al., март 2025) применил похожие принципы к веб-поиску, обучая LLM автономно формулировать запросы во время многошаговых рассуждений с real-time retrieval. В отличие от RAG, который ищет один раз и надеется на лучшее, Search-R1 учится искать итеративно, уточняя запросы на основе найденного. Ключевая техническая новизна здесь — это retrieved token masking, т.е. исключение retrieved content из функции ошибки RL для того, чтобы предотвратить нежелательные эффекты в обучении. Результат — улучшение на 24% над RAG baselines на QA-бенчмарках.

    Другой концептуальный прорыв был сделан в работе “Thinking vs. Doing” (Shen et al., июнь 2025), которая утверждает, что для интерактивных агентов “test-time compute” должен включать не только более длинные reasoning traces, но и больше шагов взаимодействия с окружением:

    Взаимодействие с окружением позволяет агентам получать новую информацию, исследовать альтернативы, откатываться назад и динамически перепланировать; всё это те возможности, которых никакие внутренние рассуждения дать не могут. В результате этот подход под названием TTI (Test-Time Interaction) достигает лучших результатов на WebVoyager (64.8%) и WebArena (26.1%) с моделью Gemma 12B, существенно превосходя агентов, обученных традиционными подходами.

    Нерешённые проблемы

    Впрочем, нерешённых проблем тоже ещё много. Например, новый бенчмарк τ²-Bench (Barres et al., июнь 2025) ввёл новую постановку задачи, важную для оценки именно агентных систем: dual-control environments, где могут действовать и агент, и пользователь, как в реальных сценариях. Другие бенчмарки предполагают, что пользователь — это пассивный источник информации, но τ²-Bench моделирует более реалистичный случай, когда агенты должны направлять пользователей делать что-то, а пользователи выполняют эти действия на своих устройствах, как в реальной техподдержке:

    И результаты отрезвляющие: state-of-the-art LLM показывают падение на 18-25% при переходе от автономного режима к коллаборативному. Коммуникация и координация с людьми пока остаются слабыми местами существующих LLM-агентов.

    Claude Code

    На практике же главным агентским релизом 2025 года, несомненно, стал Claude Code. Он работает прямо в терминале, понимает вашу кодовую базу через поиск, может переписывать сразу несколько файлов, самостоятельно переключая контекст и понимая задачу в целом, а также может запускать сразу несколько агентов, выполняющих свои задачи:

    Как выразился Карпатый в том же посте, это “маленькое привидение, которое живёт в вашем компьютере” (кажется, ещё совсем недавно мы бы вряд ли были рады такому описанию).

    В отличие от традиционных LLM for coding, которые пишут код и показывают его человеку, Claude Code может действовать более автономно; он запускает команды, создаёт pull requests, работает с git и так далее.

    А человеку остаётся только разговаривать с интерфейсом Claude Code на естественном языке. И, кстати, пользователи соглашаются, что Claude Code лучше всего работает, когда к нему относятся как к джуниору с инструментами, памятью и способностью сделать несколько подходов к задаче.

    И Claude Code — это не только программирование. Пользователи используют его для подготовки налоговых деклараций по анализу банковских выписок, бронирования билетов в театр по проверке календаря, обработки бизнес-документов. “Code” в названии продаёт продукт ниже его возможностей: это LLM-агент общего назначения, который может делать почти что угодно на вашем компьютере, используя код как интерфейс к другим задачам; см., например, свежий обзор Zvi Mowshowitz.

    Я рассказывал о Claude Code, но это просто лучшее на данный момент предложение среди многих. Например, модели семейства GPT-Codex от OpenAI (например, GPT-5.1-Codex-Max) тоже отлично справляются с автономным программированием.

    Мне кажется, что 2026-й станет годом, когда агенты для использования браузеров и компьютеров в целом прочно войдут в нашу обычную жизнь. CoWork от Anthropic, только что анонсированный как research preview, вполне может стать первой по-настоящему важной AI-новостью 2026 года.

    Законы масштабирования для test-time compute и не только

    Я упоминал test-time compute scaling в начале: рассуждающие модели могут становиться лучше безо всякого дообучения, просто подумав побольше, и этот эффект заслуживает отдельного обсуждения. В 2025-м появились важные исследования о том, как эффективно масштабировать inference compute — и оказалось, что однозначного ответа нет.

    Нет оптимальной стратегии, а маленькие модели могут обойти большие

    Авторы “The Art of Scaling Test-Time Compute” (Agarwal et al., декабрь 2025) провели первое масштабное систематическое сравнение стратегий test-time scaling, сгенерировав более 30 миллиардов токенов на восьми open-source моделях.

    Главный их вывод был в том, что никакая одна стратегия не доминирует во всех случаях. Оптимальный подход существенно зависит от типа модели и вычислительного бюджета. Авторы вводят важное различие между:

    • моделями с коротким горизонтом (short-horizon), которые выигрывают от более коротких reasoning traces независимо от сложности; такие модели часто обучены через GRPO;
    • моделями с длинным горизонтом (long-horizon), которые выигрывают от долгих рассуждений на сложных задачах; они часто обучаются другими RL-методами вроде GSPO.

    На практике это значит, что выбор между majority voting, beam search и “first finish search” должен учитывать, к какой категории относится ваша модель.

    Ещё одна интересная демонстрация compute-optimal inference была дана в работе “Can 1B LLM Surpass 405B LLM?” (Liu et al., февраль 2025). Ответ на титульный вопрос получился утвердительным: с правильной стратегией test-time scaling, 1B-модель может превзойти 405B-модель на MATH-500, а 7B-модель может побить и o1, и DeepSeek-R1 на AIME2024.

    Ключевой инсайт здесь в том, что оптимальный метод масштабирования зависит и от размера модели (search-based для маленьких, Best-of-N для больших), и от сложности задачи. Предложенные compute-optimal стратегии могут оказаться в 256 раз более эффективными, чем простое голосование. Это говорит нам, что в будущем, возможно, мы сможем использовать и маленькие, более эффективно масштабируемые модели вместо того, чтобы просто автоматически выбирать самую большую модель из возможных.

    Куда тратить вычислительный бюджет?

    Все эти разговоры на практике нужны для того, чтобы решить, куда тратить ограниченный вычислительный бюджет. И об этом тоже было несколько работ с неожиданными результатами, а точнее, частенько даже с неожиданной постановкой вопроса (“а что, так можно было?”).

    Так, например, метод GenPRM (Zhao et al., апрель 2025) показал, что сами process reward models можно масштабировать во время inference. Авторы переформулируют верификацию как задачу для рассуждений с явным chain-of-thought и строят модель GenPRM-7B, которая превосходит Qwen2.5-Math-PRM-72B на соответствующих бенчмарках, будучи в 10 раз меньше.

    Но тут же это направление поставили под вопрос: когда выгоднее направлять compute на порождение, а когда на верификацию? Этот вопрос был поставлен в работе “When To Solve, When To Verify” (Singhi et al., апрель 2025). Несколько контринтуитивно оказалось, что стратегия Self-Consistency (порождение многих решений и выбор голосованием) превосходит Generative Reward Models (GenRM) при практических значениях вычислительных бюджетов. GenRM требует примерно 8x больше compute, чтобы просто сравняться с Self-Consistency, и 128x больше для скромного улучшения на 3.8%:

    Это говорит о том, что в большинстве практических случаев масштабирование путём порождения большого числа решений остаётся эффективнее, чем инвестиции в более умную верификацию, хотя баланс смещается для очень сложных задач.

    А работа “S*: Test Time Scaling for Code Generation” (Li et al., февраль 2025) представила первый гибридный test-time scaling framework специально для кода. Поскольку для кода можно проводить автоматическую программную верификацию, можно попробовать двухэтапный подход:

    • сначала порождать множество решений с итеративной отладкой по выполнению тестов, а затем
    • выбирать лучшее через adaptive input synthesis, т.е. просить LLM порождать тесты, различающие каждую пару возможных решений.

    Любопытно, что стратегия S* позволяет instruction-based моделям приближаться к и даже превосходить reasoning models, что говорит о том, что хорошие стратегии во время inference могут заменить дорогое обучение рассуждениям.

    Это, кстати, тоже пока ещё общее место, не раз подтверждавшееся в 2025 году: часто оказывается, что можно сделать хорошую дистилляцию из большой (скорее всего рассуждающей) модели и получить маленькую модель, которая даёт хорошие (в своём классе) результаты без всяких рассуждений. Посмотрим, изменит ли 2026-й это положение дел.

    Новые архитектуры

    Вполне возможно, что мы увидим, как в 2026-м трансформеры если не заменятся, то хотя бы дополнятся другими архитектурами. И здесь, конечно, надо писать отдельный пост, а то и несколько.

    К счастью, я уже написал почти все эти посты, так что просто назову три направления, которые кажутся мне самыми перспективными на данный момент:

    • Google Titans, которую выпустили под новый 2025-й год; об этом я писал в посте “Attack of the Titans: Transformers 2.0?“;
    • Mamba-like state-space models; здесь у меня есть вводный пост “Linear Attention and Mamba: New Power to Old Ideas“, но вообще, конечно, нужно было бы сделать отдельный большой обзор; и мы уже сделали его в этом году на семинаре лаборатории Маркова — рекомендую посмотреть соответствующие доклады;
    • диффузионные LLM; введение в диффузионные модели когда-то было в моём блоге, но, конечно, оно уже безнадёжно устарело; про новые результаты в диффузионках мы поговорим в другой части обзора, а здесь просто упомяну, что в 2025-м давно уже существовавшие диффузионные языковые модели (Li et al., 2022) наконец-то начали масштабироваться в виде LLaDA (Large Language Diffusion Models; Nie et al., 2025).

    В общем, нейросетевые архитектуры не стоят на месте, и новые идеи всё время появляются, но много писать я о них в этом посте не буду.

    Разное

    В заключительной части просто упомяну несколько других статей, которые показались мне любопытными.

    Действительно ли RL улучшает reasoning?

    “Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?” (Yue et al., апрель 2025). Эта статья, вышедшая на NeurIPS 2025, ставит под вопрос предположения, лежащие в основе рассуждающих моделей в целом.

    Используя pass@k при больших k для оценки границ возможностей рассуждающих моделей, авторы систематически демонстрируют, что хотя RLVR улучшает точность (pass@1) в среднем, базовые модели устойчиво достигают более широкого reasoning coverage при высоких k, т.е. если породить кучу ответов и выбрать лучший.

    Это подтверждается на многих бенчмарках (MATH500, AIME24, LiveCodeBench и других), семействах моделей (7B-32B) и RL алгоритмах (PPO, GRPO, Reinforce++, RLOO, ReMax, DAPO). RL для маленьких k, конечно, побеждает, но графики неизбежно пересекаются в какой-то точке:

    Анализ, проведённый в этой работе, подтверждает, что те цепочки рассуждений, которые появляются после RLVR, на самом деле уже есть и в распределении базовой модели — модель просто учится сэмплировать их эффективнее. А новых способностей, получается, и не появляется!..

    С другой стороны, дистилляция от более сильных моделей-учителей действительно может расширить границы возможного и дать новые рассуждения, которых раньше модель проводить не умела.

    Всё это говорит о том, что текущие методы RLVR функционируют скорее как способы более эффективного сэмплирования из распределения возможных рассуждений базовой модели, чем как реальные улучшения способностей к этим рассуждениям. Это важно для того, чтобы понимать и потенциал, и пределы возможностей рассуждающих моделей.

    Когнитивные паттерны для самостоятельного улучшения

    “Cognitive Behaviors that Enable Self-Improving Reasoners” (Gandhi et al., март 2025) даёт механистическое объяснение того, почему одни модели существенно улучшают себя после применения RL-дообучения, а другие выходят на плато.

    Авторы выделяют четыре ключевых когнитивных поведения — verification, backtracking, subgoal setting и backward chaining — которые соответствуют стратегиям, которые люди-эксперты применяют для решения задач. Модели, естественно демонстрирующие эти поведения (например, Qwen-2.5-3B), достигают 60% accuracy на Countdown benchmark после RL-дообучения, тогда как модели без них (например, Llama-3.2-3B) выходят на плато в 30% при идентичных условиях.

    Самый поразительный результат здесь в том, что если дать модели неправильные решения, которые всё-таки демонстрируют правильные паттерны размышлений, этого будет достаточно, чтобы их качество работы сравнялось с моделями, обученными на правильных решениях.

    То есть важен на самом деле доступ к правильным когнитивным паттернам, а не к правильным ответам. Это важно и на практике, для подготовки датасетов, и, честно говоря, философски очень интересно.

    Gated Attention

    “Gated Attention for LLMs” (Qiu et al., сентябрь 2025) — важный (и очень практический) результат, получивший Best Paper award на NeurIPS 2025; это та архитектурная работа, мимо которой всё-таки не пройти. Авторы добавляют простой sigmoid gating mechanism к выходу каждой головы внимания.

    Авторы протестировали более 30 вариаций и сошлись на одной, которая устойчиво улучшала результаты:

    Теоретический инсайт здесь в том, что гейт добавляет небольшую нелинейность внутри обычного механизма внимания, который так-то является в основном линейной операцией (не считая softmax-нормализации). Эта нелинейность помогает избежать проблемы “attention sink”, когда несколько токенов доминируют в головах внимания и, как следствие, в градиентах. Кроме того, это улучшает работу с длинным контекстом, позволяя моделям лучше экстраполировать свою работу на контекст длиннее, чем они видели при обучении.

    Тот факт, что эта идея была немедленно использована в реальном семействе фронтирных LLM — Qwen-3 от Alibaba уже используют gated attention — доказывает практическую ценность работы и показывает, что академические результаты отнюдь не бесполезны на практике даже в нашу эпоху закрытых гигантских LLM.

    Заключение

    Итак, что мы имеем по итогам 2025 года в области больших языковых моделей?

    Во-первых, reasoning models — это реально. Это не маркетинг и не хайп. RLVR действительно работает (хотя есть и интересные возражения), модели действительно научились “думать” (пусть пока в кавычках), и это приводит к качественному скачку на задачах, требующих многошаговых рассуждений. Золотые медали на IMO и ICPC — это уже не просто красивые цифры для пресс-релизов, а ещё более убедительную демонстрацию прогресса я, пожалуй, отложу до раздела об AI в науке.

    Во-вторых, test-time compute scaling стал новым измерением оптимизации. Раньше мы в основном думали о том, как масштабировать обучение. Теперь inference тоже можно масштабировать, причём часто это оказывается эффективнее. Маленькие модели с правильным test-time scaling могут обойти модели в сотни раз больше.

    В-третьих, LLM-агенты наконец-то начали работать на практике. MCP стандартизировал взаимодействие с инструментами, computer use приблизился к человеческому уровню, а Claude Code вывел автономных агентов на новый уровень, причём не только в программировании. METR-график с 5-часовыми решаемыми задачами уже сегодня выглядит пугающе для тех, кто зарабатывает программированием — а что будет ещё через год?

    В-четвёртых, открытые модели отстают совсем не так уж сильно. DeepSeek продолжает показывать, что open source модели могут конкурировать с лучшими проприетарными, по крайней мере в специализированных задачах; но их “специализация” — это математические рассуждения, что совсем не так уж узко.

    Что дальше? Мне кажется, что даже если новых революций (например, заката эпохи трансформеров) не произойдёт, 2026-й станет годом широкого использования и развития того, что было разработано в 2025-м. Browser agents, computer use, agentic coding — всё это уже стало очень популярным, а в течение года должно уже прочно закрепиться на массовом рынке. Кроме того, возможно, мы всё-таки увидим первые серьёзные альтернативы трансформерам в архитектуре LLM — Mamba, Titans, диффузионные LLM ждут своего часа.

    В следующих частях обзора мы поговорим о других аспектах искусственного интеллекта: о моделях, работающих с изображениями, об AI safety, о роботике и так далее. С наступившим 2026-м, коллеги!

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале «Sineкура»: присоединяйтесь!

  • Область трёх революций: искусственный интеллект в XXI веке

    Область трёх революций: искусственный интеллект в XXI веке

    Это статья из новогоднего выпуска журнала “Деловой Петербург”, посвящённого итогам первой четверти XXI века. Выкладываю также полную свёрстанную версию в pdf:

    Четвёртая революция — pdf

    Введение

    Двадцать пять лет назад, на пороге нового тысячелетия, сильный искусственный интеллект казался далёкой, а то и несбыточной мечтой. Нейронные сети существовали только в академической среде, передним краем искусственного интеллекта были рекомендательные системы и поиск в интернете, а идея машины, способной поддержать осмысленный разговор или создать произведение искусства, оставалась уделом фантастов.

    Сегодня AI-системы пишут код, ставят медицинские диагнозы, создают музыку и изображения, ведут переговоры и даже помогают в научных исследованиях. Более того, они уже начинают участвовать в разработке следующего поколения AI-систем. 

    В этом головокружительном скачке можно выделить три революции, каждая из которых меняла наши представления о возможностях искусственного интеллекта. Сегодня мы поговорим и о них, и о контурах следующей, четвёртой революции, которые уже можно различить в тумане будущего.

    Революция глубокого обучения: когда нейросети наконец заработали

    Начало пути

    История искусственных нейронных сетей началась ещё до того, как AI оформился как научная дисциплина. Первые математические модели нейронов и их взаимодействий появились уже в 1940-х годах, а перцептрон Розенблатта, который в 1958 году стал одной из первых реализованных на практике моделей машинного обучения, был по сути моделью одного нейрона. Метод обратного распространения ошибки, которым обучаются глубокие нейросети, представляет собой просто дифференцирование сложной функции, и к нейросетям был успешно применён уже в 1970-х.

    Но в XX веке нейросети оставались скорее предметом академических исследований, чем практическим инструментом. Они работали на игрушечных задачах и демонстрировали принципиальную возможность своего обучения, но неизменно проигрывали более простым методам. “Нейросети — это второй лучший способ сделать всё что угодно”, — говорил в начале девяностых Джон Денкер.

    Революция глубокого обучения

    Всё изменилось в середине 2000-х. С математической, идейной стороны Джеффри Хинтон и его коллеги представили новый способ, который позволял обучать глубокие нейронные сети; аналогичный прорыв произошёл и в группе Йошуа Бенджи.

    Но даже важнее, чем новые алгоритмические идеи, было то, что технологическая база к этому времени тоже созрела для успеха нейросетей. Графические процессоры (GPU), изначально созданные для трёхмерной графики в видеоиграх, оказались идеальным инструментом для обучения нейросетей. Матричные операции, составляющие основу вычислений в нейронных сетях, выполнялись на GPU в десятки и сотни раз быстрее, чем на обычных процессорах. Одновременно развитие интернета породило огромный поток данных: миллионы изображений, тысячи часов видео, терабайты текста. У нейросетей наконец-то появилось и достаточно мощное “железо”, и пища для обучения.

    Нейросети шагают по планете

    Первой практически важной областью применения нейросетей стало тогда распознавание речи: появившиеся в начале 2010-х голосовые ассистенты были бы невозможны без обработки речевых сигналов теми самыми глубокими сетями Хинтона.

    Символическим моментом революции стал 2012 год, когда на главном соревновании по распознаванию изображений (на датасете ImageNet) команда Джеффри Хинтона представила свёрточную нейронную сеть AlexNet. Она не просто победила, она уничтожила конкурентов, снизив лучший показатель ошибки с 26% до примерно 14%. Это был огромный качественный скачок, и с тех пор каждый год победителями этого соревнования становились исключительно нейронные сети (архитектуры которых, конечно, менялись и улучшались со временем).

    А в 2016 году AlphaGo, основанная на глубоких нейронных сетях, победила Ли Седоля, одного из ведущих профессионалов в игре го. Ранее эта игра всегда считалась слишком сложной для компьютеров из-за астрономического числа возможных позиций (поиск по дереву в го не работает совсем), и победу AlphaGo не ожидал практически никто — ни профессионалы го, ни специалисты по искусственному интеллекту.

    За эти 10 лет глубокие нейросети стали доминирующей парадигмой в машинном обучении. Но у них были свои ограничения. Свёрточные сети хорошо работали с изображениями, рекуррентные — с последовательностями вроде текста или временных рядов, но каждая архитектура была заточена под свой тип данных, обучение оставалось медленным, а масштабирование — проблематичным.

    Революция трансформеров

    Что такое трансформер

    В 2017 году группа исследователей из Google опубликовала статью с провокационным названием “Attention is All You Need” (“Внимание — это всё, что вам нужно”). В ней описывалась новая архитектура нейронных сетей — трансформер (Transformer). На первый взгляд это была просто ещё одна архитектура для обработки последовательностей, конкурент для классических рекуррентных нейронных сетей. Но быстро стало ясно, что это нечто большее.

    Ключевая идея трансформеров — механизм самовнимания (self-attention). Представьте, что вы читаете предложение: “Кошка, которая жила у соседей и которую я часто видел во дворе, убежала”. Чтобы понять, кто именно убежал, вам нужно связать слово “убежала” со словом “кошка”, хотя между ними много других слов. Рекуррентные сети обрабатывали текст последовательно, слово за словом, и с трудом могли обрабатывать даже такие связи в пределах одного предложения, не говоря уже о более далёких. Самовнимание позволяет каждому слову “смотреть” на все остальные слова одновременно и решать, какие из них важны для понимания контекста.

    От языка к другим модальностям

    Эта простая идея оказалась невероятно плодотворной. В 2018 году появилась модель BERT, которая могла читать тексты и понимать их гораздо глубже, чем все предыдущие; здесь “понимать” означает преобразовывать в семантически богатые представления, при помощи которых потом можно решать разные задачи. В пару к BERT появилось и семейство моделей GPT, о которых мы поговорим ниже.

    Но революция трансформеров оказалась шире, чем просто обработка текста. Исследователи быстро поняли, что та же архитектура работает и для изображений (в 2020 году вышел Vision Transformer, который стал основой для очень многих архитектур), и для звука, и для видео. Идея самовнимания оказалась универсальной. Более того, трансформеры можно было комбинировать с другими типами сетей, создавая гибридные архитектуры.

    Масштабирование

    Но, пожалуй, самое важное свойство трансформеров — это их способность к масштабированию. Трансформеры можно разделить на тысячи параллельных вычислений и обучать на сотнях и тысячах GPU одновременно. И исследователи обнаружили удивительный эмпирический закон: качество работы трансформеров предсказуемо растёт с увеличением размера модели, объёма данных и вычислительных ресурсов.

    Эти законы масштабирования (scaling laws) перевернули индустрию. Раньше прогресс в машинном обучении достигался в основном за счёт новых архитектурных решений, новых моделей. А теперь появилась простая, почти механическая формула успеха: больше параметров, больше данных, больше вычислений — лучше результат, причём предсказуемо лучше. Это породило “гонку вооружений”, результаты которой мы видим сегодня.

    Революция языковых моделей

    Откуда взять данные?

    Но и это ещё не всё. То самое масштабирование привело к тому, что размеченных данных для обучения стало категорически не хватать. Когда модели стали содержать миллиарды параметров, большие датасеты “обычного” глубокого обучения, вроде ImageNet, перестали казаться большими.

    Решение пришло из неожиданной области. Вместо того чтобы размечать данные вручную, можно использовать задачи с саморазметкой (self-supervision), где правильные ответы получаются автоматически, без участия людей. Самая естественная такая задача для текста — языковое моделирование (language modeling): предсказание следующего слова по предыдущим.

    Возьмите любой текст из интернета, оборвите в случайном месте и попросите модель предсказать следующее слово — и вот у вас уже есть обучающий пример. А в интернете триллионы слов.

    Языковые модели

    Задача языкового моделирования, кстати, тоже была всегда. Ещё в 1913 году Андрей Андреевич Марков построил вероятностную модель последовательностей букв в “Евгении Онегине” — первую языковую модель в истории. Простые языковые модели десятилетиями использовались в распознавании речи и машинном переводе, помогая выбрать более вероятный вариант интерпретации. Но, конечно, никто не ожидал, что они смогут писать связный текст или отвечать на сложные вопросы.

    И здесь сработало масштабирование трансформеров. В 2018 году OpenAI выпустила GPT — первую большую языковую модель на основе трансформеров. В 2019 появилась GPT-2 с полутора миллиардами параметров, которая уже могла порождать довольно убедительные тексты. Исследователи из OpenAI даже побоялись выкладывать её в открытый доступ. В 2020 вышла GPT-3 со 175 миллиардами параметров — и тут стало окончательно ясно, что происходит что-то экстраординарное.

    GPT-3 могла не просто порождать убедительный текст. Она могла переводить, резюмировать, отвечать на вопросы, писать код, сочинять стихи — и всё это без дополнительного обучения на конкретных задачах, просто на основе нескольких примеров в запросе. Модель могла обобщаться на новые задачи прямо во время использования.

    Всё это уже произвело революцию в академических кругах, но на публику она вышла только в ноябре 2022 года, когда OpenAI выпустила ChatGPT. Это была та же GPT-3, но дообученная на диалогах и с использованием обратной связи от людей (reinforcement learning from human feedback, RLHF). ChatGPT мог поддерживать связный разговор, помнить контекст, признавать ошибки, отвечать на поставленные вопросы и отказываться от неподходящих запросов. И им могли пользоваться все, через простой веб-интерфейс.

    Скорость прогресса

    За пять дней ChatGPT набрал миллион пользователей. За два месяца — сто миллионов. Это была самая быстрорастущая потребительская технология в истории. Дальше были GPT-4 и GPT-5 от OpenAI, семейства Claude от Anthropic и Gemini от Google, семейства открытых моделей вроде Llama или DeepSeek и многое другое. Началась гонка больших языковых моделей (large language models, LLM).

    Сегодня LLM помогают программистам писать код, юристам анализировать договоры, врачам формулировать диагнозы, студентам учиться, писателям бороться с творческим кризисом. Они встроены в поисковики, текстовые редакторы, системы разработки. Большими языковыми моделями так или иначе пользуются сотни миллионов людей ежедневно.

    И прогресс не останавливается. В 2022 году GPT-3 было нелегко справиться с задачами для третьеклассников вроде “У Васи было три теннисных мячика, и он купил ещё две упаковки по четыре; сколько у него теперь мячиков?” А в 2025-м GPT-5 и Gemini 2.5 Pro уже способны самостоятельно решать сложные математические задачи, как олимпиадные, так и исследовательские. Важным прорывом здесь стали рассуждающие модели (reasoning models), которые сначала “обдумывают” задачу на “черновике”, а только потом начинают выдавать ответ. На основе современных LLM уже создаются системы, которые способны производить новые научные результаты — и это только начало пути.

    Пожалуй, самое поразительное здесь не конкретные достижения, а как раз скорость прогресса. Закон Мура для AI работает с удвоением производительности не каждые два года, а каждые несколько месяцев. Задачи, которые казались серьёзным вызовом год назад, сегодня решаются почти идеально. Количество вычислений, требующееся для обучения передовых моделей, удваивается примерно каждые шесть месяцев. Мы живём в эпоху языковых моделей, которые прямо сейчас меняют мир в самых разных областях, и экспоненциальный прогресс никак не хочет останавливаться… 

    Какой будет четвёртая революция?

    Заглянуть в будущее всегда сложно, но кое-что мы уже видим. Четвёртая революция в AI, похоже, будет обеспечена не одним прорывом, а несколькими параллельными направлениями, которые могут сойтись неожиданным образом.

    Новые архитектуры

    Несмотря на доминирование трансформеров, у них есть фундаментальные ограничения. Главное — квадратичная сложность механизма внимания: каждый токен должен “посмотреть” на все остальные токены, что означает, что вычисления растут пропорционально квадрату длины текста. Для контекста в миллионы токенов это становится вычислительно невозможным. Кроме того, у трансформеров нет настоящей памяти — они всегда обрабатывают весь контекст заново.

    В последние годы появляются альтернативы: SSM (State Space Models) вроде Mamba с линейной сложностью и встроенной памятью, архитектуры с разреженным вниманием, семейство JEPA (Joint Embedding Predictive Architecture) от Яна Лекуна и так далее. Пока неясно, какая из этих идей “выстрелит”, но поиск архитектуры следующего поколения уже идёт полным ходом.

    Мультимодальность и воплощённый AI

    Сегодняшние модели всё ещё в основном работают с текстом и изображениями. Но человеческий интеллект развивался во взаимодействии с физическим миром — через прикосновения, движение, манипуляцию объектами. Есть гипотеза, что для создания по-настоящему общего интеллекта нужен воплощённый AI (embodied AI) — искусственный интеллект, который учится через непосредственный опыт некоего физического агента.

    Уже появляются модели мира (world models), которые учатся предсказывать последствия действий в визуальной или тактильной среде. Роботы с AI-управлением начинают справляться со сложными задачами манипуляции. Многие компании сейчас работают над человекоподобными роботами, управляемыми большими мультимодальными моделями. Возможно, следующий прорыв придёт именно отсюда, когда AI научится не просто рассуждать о мире, но и действовать в нём.

    Агентные системы

    Современные LLM отвечают на запросы, но в основном пассивны. Агентные системы должны быть способны ставить себе цели, планировать, использовать инструменты, взаимодействовать с окружающей средой и другими агентами для достижения долгосрочных целей. Уже существуют прототипы, которые могут пользоваться компьютером и браузером, выполнять последовательности действий, реализовывать целые программистские проекты.

    Но настоящие агенты потребуют решения проблем надёжности, безопасности и согласования (alignment) целей AI с человеческими ценностями. Агент, который может действовать автономно, потенциально гораздо опаснее, чем пассивный помощник.

    AI для науки

    И здесь мы подходим к самому головокружительному сценарию. В 2024 году появились системы вроде FunSearch от Google DeepMind, открывшей новые математические результаты, или AI Scientist от Sakana AI, способной проводить полный цикл научного исследования, от гипотез через эксперименты до готовой статьи. LLM уже помогают доказывать теоремы, предсказывать структуры белков, искать новые материалы.

    Что будет, когда AI станет не просто помощником учёного, а самостоятельным исследователем? А что будет, когда AI-системы начнут проводить исследования в области самого искусственного интеллекта?

    Многие слышали о технологической сингулярности, моменте, когда прогресс становится настолько быстрым, что люди уже не могут уследить за ним. До недавних пор эти рассуждения были чистой фантастикой. Но сейчас кажется, что если AI сможет лучше людей проводить исследования в области AI, то такая система сможет улучшать сама себя, создавая следующее поколение ещё более мощных систем, и этот процесс сможет развиваться экспоненциально без участия людей — та самая сингулярность. 

    Что будет в таком случае, не знает никто. Есть и утопические варианты прогнозов — решение всех научных и технологических проблем человечества, изобилие, даже потенциальное бессмертие, — и экзистенциальные риски: если мы создадим системы умнее нас самих, и их цели вдруг окажутся несовместимы с человеческим выживанием, человечество может и не сохранить контроль за будущим. Но важно, что все эти прогнозы и варианты очень, очень близки; в сфере искусственного интеллекта пессимистами считаются те, кто откладывает свой прогноз достижения сверхчеловеческого интеллекта на середину 2030-х, а оптимисты предсказывают это уже в нашем десятилетии…

    Мы живём в уникальное время — возможно, самое важное в истории человечества. За четверть века искусственный интеллект прошёл путь от набора разрозненных методов с достаточно узкой сферой применимости до технологий, которые трансформируют все аспекты нашей жизни. Три революции — глубокого обучения, трансформеров и языковых моделей — изменили не только наши технологии, но и наше представление о возможном.

    Следующие несколько лет будут определяющими. Четвёртая революция уже началась, но мы ещё не знаем её имени. Выборы, которые мы сделаем сейчас — как исследователи, разработчики, регуляторы, пользователи — могут определить траекторию развития не только AI как науки, но и человечества в целом. У нас есть уникальная возможность сознательно направить развитие самой мощной технологии в истории. Будем ли мы достаточно мудры, чтобы воспользоваться ею?

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • Thinking Tokens: что главное в рассуждениях языковых моделей?

    Thinking Tokens: что главное в рассуждениях языковых моделей?

    Модели семейства OpenAI o1, DeepSeek R1, QwQ, а затем и все остальные произвели очередную мини-революцию в сложных рассуждениях; благодаря им модели резко продвинулись в практически всех видах интеллектуальной деятельности. Но что происходит внутри этих моделей, когда они “думают”? Какие части их рассуждений самые важные? Новая работа исследователей из Shanghai AI Lab Qian et al. (2025) приподнимает завесу тайны, обнаруживая информационные пики — критические моменты в процессе рассуждения, которые соответствуют особым “thinking tokens”. Мы можем посмотреть, что это за токены, и, более того, понимание этих механизмов имеет практический смысл: авторы предлагают новый простой, но эффективный метод, улучшающий качество рассуждений без дополнительного обучения.

    Как измерить “прогресс мысли”: взаимная информация

    Как понять, продвигается ли модель к правильному ответу на каждом шаге рассуждения? Авторы предлагают элегантный подход: измерять взаимную информацию (mutual information, MI) между внутренним представлением модели на каждом шаге и правильным ответом.

    Математические основы

    Взаимная информация — это мера того, сколько информации одна случайная величина содержит о другой. Формально говоря, для двух случайных величин X и Y

        \[I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)},\]

    ну или, соответственно, в непрерывном случае

        \[I(X; Y) = \int_Y \int_X p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \, dx \, dy.\]

    Взаимную информацию также можно выразить через энтропию:

        \[I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X),\]

    где H(X) = -\sum_x p(x) \log p(x) — энтропия X, а H(X|Y) = -\sum_{x,y} p(x,y) \log p(x|y) — условная энтропия X при условии Y. Интуитивно говоря, взаимная информация измеряет, насколько знание одной величины уменьшает неопределённость относительно другой. Eсли I(X;Y)=0, величины независимы, а если I(X; Y) = H(X) = H(Y), они полностью детерминированы друг другом.

    Взаимная информация представлений с ответом

    В нашем случае вопрос звучит так: сколько информации о правильном ответе содержится в текущем внутреннем состоянии модели? Если MI высокая, значит, модель на верном пути, если низкая — ещё не нащупала решение.

    И здесь появляется главное открытие работы: при анализе моделей DeepSeek R1 и QwQ авторы обнаружили пики взаимной информации (MI peaks) — моменты, когда взаимная информация резко возрастает. Эти пики:

    • разбросаны неравномерно по траектории рассуждения (они появляются не через фиксированные интервалы),
    • составляют всего 0.5-5% от всех шагов и, главное,
    • появляются именно в момент “прорывов” в рассуждении.

    Вот как выглядит график взаимной информации в процессе рассуждения для небольших открытых моделей:

    Технически говоря, MI в пространстве такой высокой размерности подсчитать трудно, и авторы измеряют не MI напрямую, а её прокси, критерий независимости Гильберта-Шмидта (Hilbert-Schmidt Independence Criterion, HSIC) — непараметрический метод оценки зависимости через ядра; впрочем, в это нам углубляться уже не обязательно, получается хорошая аппроксимация MI, и нам этого достаточно.

    Теоретические оценки

    Интуиция понятна, но почему высокая MI должна коррелировать с правильностью ответа? Авторы доказывают две теоремы, устанавливающие количественную связь между накопленной MI и вероятностью ошибки модели. Углубляться в их доказательства я не буду, но формулировку (общую, там одна теорема даёт нижнюю оценку, а другая верхнюю) приведу.

    Пусть h_1, h_2, \ldots, h_T ​— последовательность представлений модели, y — правильный ответ, \hat{y}​ — предсказание модели, p_e = p(\hat{y} \neq y) — вероятность ошибки. Тогда p_e можно оценить с двух сторон (это и есть две теоремы в статье):

        \[p_e \geq \frac{1}{\log(|Y| - 1)} \left[ H(y) - \sum_{j=1}^T I(y; h_j \mid h_{<j}) - H_b(p_e) \right],\]

        \[p_e \leq \frac{1}{2} \left[ H(y) - \sum_{j=1}^T I(y; h_j \mid h_{<j}) \right],\]

    где |Y| — размер пространства возможных ответов, H(y) — энтропия распределения правильного ответа, I(y; h_j \mid h_{<j}) — условная MI между y и h_j​ при условии предыдущих представлений, H_b(p_e) = -p_e \log p_e - (1-p_e) \log(1-p_e) — энтропия вероятности ошибки.

    Интуитивно говоря, это показывает, что вероятность ошибки p_e​ ограничена снизу и сверху выражениями, содержащими суммарную условную MI, т.е. полную информацию о правильном ответе, накопленную моделью по ходу рассуждения. Чем она больше, тем меньше и нижняя, и верхняя границы в формуле выше, то есть обе границы стягиваются к нулю: чем больше модель узнала о правильном ответе, тем меньше вероятность ошибки.

    Соответственно, пики MI быстро “набирают” взаимную информацию в эту сумму, в критические моменты модель делает резкие скачки в суммарной MI, и поэтому такие пики особенно важны: в эти моменты происходит основной “информационный прогресс” к правильному ответу.

    Но что же это за пики такие? Какие токены им соответствуют?

    Thinking Tokens: маркеры озарения

    Что же происходит в эти моменты информационных пиков? Авторы применили изящный трюк: декодировали внутренние представления обратно в токены, чтобы увидеть, какие именно слова соответствуют high-MI состояниям. А именно, смотрят на признаки на последнем слое модели и жадно выбирают токен с максимальной вероятностью.

    Зачем так сложно?

    Здесь, кстати, возникает ещё один вопрос: зачем так усложнять? Модель же генерирует токены на своём scratchpad (в цепочке рассуждений), почему нельзя просто посмотреть, какие токены совпадают с моментами MI peaks? Проблема в том, что токен на scratchpad и внутренние представления сдвинуты: когда модель порождает последовательность токенов \hat{y}_1, \hat{y}_2, \ldots, \hat{y}_T, на шаге t модель имеет представление h_t = \text{LLM}(x, \hat{y}_{<t}). Это представление используется для предсказания следующего токена \hat{y}_t, но пик MI в h_t​ отражает информацию, накопленную до порождения \hat{y}_t, и он может быть связан с информацией, полученной из \hat{y}_{t-1}​ или раньше. Поэтому просто взять токен \hat{y}_t​ на позиции пика MI недостаточно — он может быть “следствием” пика, а не его “содержанием”; а вот в представлениях уже действительно содержится вся информация, используемая далее моделью.

    Какие это токены?

    Но хватит уже нагнетать саспенс — что за токены-то получаются? Результат очень красивый, на мой взгляд неожиданный, но интуитивно абсолютно понятный. В моменты MI peaks модель генерирует так называемые thinking tokens (токены размышлений); это слова, выражающие:

    • рефлексию: “Hmm”, “Wait”, “Hold on”;
    • логические переходы: “Therefore”, “So”, “Thus”;
    • самопроверку: “Let me reconsider”, “Actually” и т.д.

    Вот такие примерно слова там встречаются:

    Оказывается, что все эти “hmm” и “wait” в рассуждениях моделей — это не просто языковые украшения или артефакты обучения, а наоборот, самые главные токены! Они маркируют критические моменты, когда модель обнаруживает ошибку в рассуждении, меняет стратегию решения или делает ключевой логический переход.

    Экспериментальное подтверждение

    Чтобы окончательно удостовериться, что эти токены действительно важны, авторы провели контролируемый эксперимент: запретили модели генерировать thinking tokens, устанавливая их вероятность в ноль.

    И вот результат:

    Оказывается, что если подавлять thinking tokens, то без первых двух-трёх таких токенов модель ещё обойдётся (заменив их на другие thinking tokens — этот эффект авторы тоже отметили), а потом начнётся очень серьёзное падение качества: на 20-30% на сложных задачах! При этом на зелёной кривой, показывающей подавление случайных токенов, не видно почти никакого эффекта. 

    Это подтверждает, что thinking tokens действительно критически важны для успешных рассуждений, это не просто корреляция. Получается, что моделям нужна эта возможность выразить моменты рефлексии и логических переходов, и без слов вроде “hmm” или “maybe” модель просто теряет способность к сложным рассуждениям…

    Авторы также вручную просмотрели примеры и обнаружили, что после thinking tokens часто следуют фразы вроде:

    • “Wait, let me think differently. Let’s denote…” (смена стратегии); 
    • “Hmm, so I must have made a mistake somewhere. Let me double-check…” (обнаружение ошибки); 
    • “Therefore, combining these results…” (синтез информации) и так далее.

    Representation Recycling: давай подумаем ещё

    Теперь, когда мы поняли важность MI peaks и thinking tokens, возникает вопрос: как использовать это знание для того, чтобы улучшить рассуждения моделей?

    Что значит “подумать ещё”?

    Интуитивно кажется, что есть смысл предложить модели подумать подольше. Здесь Qian et al. предлагают интересную идею, но прежде чем объяснять её детально, давайте сами подумаем: какие вообще есть варианты попросить LLM “подумать побольше”?

    Во-первых, можно запустить модель несколько раз с разными random seeds, получить несколько вариантов рассуждений и выбрать лучший из них, например, через мажоритарное голосование или верификатор. Это известная идея, и известно, что она может сработать: ещё на заре chain-of-thought методов начали применять self-consistency такого рода (Wang et al., 2022). Но это не получится опустить на уровень отдельных токенов: LLM ведь сама по себе детерминированная модель, сэмплирование происходит только на последнем шаге, так что если уже сгенерированный префикс зафиксирован, то на следующем токене распределение не изменится.

    Во-вторых, можно продлить рассуждения, искусственно добавив подобный thinking token в конце. Например, после порождения ответа просто добавить в рассуждения модели фразу вроде “Are you sure? Let me double-check…” и продолжить порождение. Это тоже уже известный метод, так делали Mueninghoff et al. (2025) в работе про модель s1, ту самую рассуждающую модель, обученную за $50. Но это тоже не точечное вмешательство.

    В-третьих, в критические моменты (например, в момент порождения thinking tokens) можно увеличить температуру сэмплирования, чтобы исследовать больше вариантов. Это уже направленное вмешательство в нужный момент, но это совсем не та интервенция, которая нам нужна: мы бы хотели, чтобы модель “углубилась” в текущую линию рассуждения, а высокая температура, наоборот, будет “разбрасывать” внимание модели.

    Representation Recycling

    Вместо всего этого Qian et al. предлагают Representation Recycling (RR) — метод, который звучит почти парадоксально: когда мы на текущем представлении внутри модели (после некоторого блока трансформера \text{TF}_{\ell}) фиксируем пик MI, нужно взять это внутреннее представление h_t​ и прогнать его ещё раз через тот же блок трансформера \text{TF}_{\ell}, получив “углублённое” представление h'_t

    Может показаться, что это бессмысленно: зачем через одни и те же веса детерминированного трансформера прогонять один и тот же вход два раза?

    Однако хотя веса одинаковы, контекст меняется! В первом проходе self-attention в \text{TF}_{\ell}​ видит h_{\ell-1} (представление предыдущего слоя), а во втором проходе (recycling) self-attention видит h_{\ell}, результат первого прохода, в котором эти представления уже один раз “посмотрели друг на друга”. Понятно, что формально это новый вход, и выход будет тоже другой, но это и интуитивно имеет смысл. 

    Думаю, верная аналогия здесь в том, чтобы как будто “прочитать текст два раза”. Первое чтение даёт общее понимание, а второе чтение того же текста, при котором вы уже заранее знаете, что в нём есть, будет более детальным: вы замечаете детали и связи, которые пропустили в первый раз. Аналогия, конечно, не совсем точная — для нашего человеческого чтения всё-таки принципиально то, что мы читаем последовательно, и во второй раз главная новая информация придёт от того, что мы уже видели, что будет дальше, а у LLM такого эффекта нет — но думаю, что она всё-таки что-то проясняет.

    В реальности такая повторная обработка имеет смысл для верхних слоёв трансформера (примерно 20-30 слои в 70B моделях, или 15-20 слои в 8B моделях). И эмпирически оказывается, что RR даёт существенное улучшение во всех изученных рассуждающих моделях:

    Замечания о методе RR

    Ещё два замечания:

    • в момент применения модели мы, конечно, не знаем ответа и не можем подсчитать MI, но для этого и было всё предыдущее исследование: мы будем применять RR, когда модель порождает тот или иной thinking token;
    • очевидно, что повторно прогонять представления можно не только во второй раз, но и в третий, четвёртый и так далее, но здесь авторы пишут, что улучшения тут же пропадают, а затем начинается даже откат улучшений — возможно, начинается оверфиттинг к конкретному получившемуся представлению.

    Замечу ещё, что хотя такой подход, конечно не бесплатный в вычислительном смысле — дополнительный проход через блок трансформера добавляет вычислений — здесь очень важно, что повышенную цену мы платим только в моменты появления thinking tokens, то есть 5-10 раз за всю цепочку рассуждений, а не на каждом шаге, так что на самом деле цена фактически пренебрежимо мала. В общем, интересный новый подход к test-time scaling, который очень легко реализовать и который, кажется, действительно улучшает результаты.

    Test-time scaling через добавление thinking tokens

    Идею Mueninghoff et al. (2025) из работы про s1 здесь авторы, впрочем, тоже изучают; она теперь, видимо, официально будет называться TTTS (Thinking Token based Test-time Scaling). Это та же идея — добавлять в конец рассуждений thinking tokens и продолжать думать до исчерпания вычислительного бюджета — но теперь, в отличие от s1:

    • появилось теоретическое обоснование через пики MI;
    • выбор таких дополнительных промптов стал лучше и более автоматизирован: для новой модели можно просто собрать статистику по характерным для неё thinking tokens;
    • теперь TTTS можно комбинировать с RR.

    Улучшения от такого TTTS не гигантские, но заметные и, главное, устойчивые:

    Обзор других похожих работ

    Течение этого поста было логичным и даже имело некоторую повествовательную арку, так что прерывать её на обзор related work не хотелось, и (небольшую) обзорную часть я перенёс в конец. Однако несколько работ, которые дают важный контекст других подобных исследований, я всё-таки упомяну.

    Safety tokens

    Lin et al. (2024) обнаружили удивительный феномен при изучении AI alignment. Вопрос стоял так: как именно alignment (в данном случае имеется в виду обучение моделей отказываться от потенциально вредных запросов) работает на механистическом уровне? Авторы проанализировали внутренние представления и паттерны внимания aligned моделей (например, LLaMA-2-Chat) при таких вредоносных запросах.

    Главное открытие было в том, что aligned модели научились порождать специальные “safety tokens” в начале ответа: “I’m sorry”, “I cannot”, “However”, “I apologize” и так далее. После порождения этих токенов паттерны внимания моделей меняются очень сильно, последующие токены обращают на них очень много внимания, и модель “блокируется” и переходит в режим отказа.

    Эффект оказался сильным и устойчивым. Например, если искусственно удалить “I’m sorry” из начала ответа и продолжить порождение, модель может выдать вредоносный контент. И даже базовая модель, до всякого alignment, если начать её ответ с “I apologize”, стремится продолжить в “безопасном” духе. 

    Почему safety tokens — это плохо

    Qi et al. (2025) продолжили идеи Lin et al. во вполне логичном направлении: если alignment оказался настолько “поверхностным”, что зависит от нескольких safety tokens в начале, значит, его легко обойти? И действительно, легко: можно добавлять специальные окончания в промпты (adversarial suffixes), которые перебивают влияние safety tokens, а можно просто задать вопрос на нескольких языках, ведь safety tokens обычно обучены только на английском.

    Авторы, впрочем, дают и конструктив и предлагают методы “deep alignment”: как заложить безопасность в представлениях модели, а не только в начальных токенах. В это я углубляться не буду, только ещё раз отмечу, что “безопасность” здесь понимается в весьма узком и специфическом смысле: как заставить модель не отвечать на потенциально вредоносные запросы. Это не всё AI safety, а одна его конкретная (и довольно, так сказать, mundane) компонента.

    Critical tokens matter: как использовать важные токены для обучения

    Работа Lin et al. (2024) тоже очень похожа на нашу сегодняшнюю: она напрямую исследует критические токены в контексте рассуждающих моделей, но с другой стороны. Здесь предположение в том, что в chain-of-thought reasoning не все токены одинаково важны: некоторые токены представляют собой что-то важное (здесь речь скорее о важных логических шагах, до “hmm” и “wait” здесь авторы не дошли), другие — просто филлер.

    Авторы предлагают так называемый метод token-level contrastive estimation: взять правильные и неправильные рассуждения для одной и той же задачи, поточечно сравнить их, найти discriminative tokens, то есть места, где правильные и неправильные chains различаются, а потом обучить модель с повышенным весом ошибки именно на таких discriminative tokens.

    Модели, обученные с token-level contrastive loss, действительно в итоге значительно лучше рассуждают, и действительно обучаются “обращать внимание” на критические логические шаги. Здесь, конечно, кроме очевидного сходства бросается в глаза то, что обе идеи вполне можно совместить: давайте попробуем делать contrastive estimation для токенов с высокой MI, или для уже выделенных thinking tokens. Интересно было бы попробовать.

    Другие похожие исследования

    Про критические токены вроде всё, но есть ещё несколько работ, которые похожи на эту по другим признакам. Подробно обозревать их уж не буду, но кратко назову:

    • Ton et al. (2024) тоже используют теорию информации и в частности взаимную информацию с ответом для анализа chain-of-thought reasoning; правда, они не спускаются на уровень токенов и просто отмечают, что chain of thought увеличивает MI между входом и выходом модели, даёт дополнительную информацию о правильном ответе, особенно в случае self-consistency CoT (нескольких порождений);
    • Snell et al. (2024): работу Mueninghoff et al. (2025) я обсуждал в основном тексте, а это ещё одна статья о том, что test-time scaling может быть даже полезнее, чем масштабирование по числу параметров; 
    • Zou et al. (2023): всё это, конечно, большое направление с кучей разных статей, но, например, эта довольно характерная работа предлагает framework для понимания и контроля поведения AI-моделей через управление их внутренними представлениями; мыслеконтроль как он есть, и в каком-то смысле RR является его частным случаем.

    Заключение

    Работа Qian et al. (2025) даёт красивый пример того, как очень простой вопрос и очень прямолинейное по сути исследование привели к важному продвижению в понимании механизмов работы рассуждающих моделей, а затем и к практическим улучшениям. Последовательность выглядит так:

    • интересное наблюдение: в траекториях рассуждений современных LRM появляются пики взаимной информации с правильным ответом;
    • интерпретация: эти пики соответствуют thinking tokens — токенам рефлексии и логических переходов;
    • теория: между суммарной накопленной MI и вероятностью ошибки есть теоретическая связь, которая формализует нашу интуицию о важности этих моментов;
    • практика: Representation Recycling и TTTS используют найденные thinking tokens для улучшения качества рассуждений;
    • валидация: методы работают, рассуждения становятся лучше, и всё это ещё раз подтверждает правильность нашего новообретённого понимания.

    Особенно ценно, что оба предложенных метода (RR и TTTS) — сугубо test-time: они не требуют переобучения модели, только модификацию процесса её применения. Это значит, что их легко применить к уже существующим рассуждающим моделям; для RR, правда, нужен доступ ко внутренностям модели, но не более того, переобучать всё равно ничего не надо. При этом улучшения довольно существенные: +20% на сложных математических задачах из AIME — это очень серьёзный прогресс для метода, который в реализации занимает буквально десяток строчек кода.

    Есть и много открытых вопросов для дальнейших исследований. Почему пики MI возникают именно в эти моменты, а не в другие? Можно ли предсказать их появление заранее? Можно ли явно тренировать модели на максимизацию таких пиков, или создавать для них “оптимальные” thinking tokens? И самый интересный вопрос: какие ещё можно найти способы использовать эти high-MI representations, помимо прямого recycling?

    Но уже сейчас понятно, что thinking tokens — это не просто лингвистические артефакты, а фундаментальная часть архитектуры рассуждений современных языковых моделей. Модели действительно “думают” в эти моменты, и мы теперь можем это измерить, объяснить и улучшить.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • “А теперь побей все бенчмарки”: AI-ассистент для учёных на основе MCTS

    “А теперь побей все бенчмарки”: AI-ассистент для учёных на основе MCTS

    Я в своих докладах люблю пугать людей тем, что AI уже потихоньку начинает самостоятельно проводить исследования. Рассказывал вам уже про Google Co-Scientist, AI Scientist от Sakana AI, Robin, Zochi… Там были и важные новые идеи, и даже полностью автоматически порождённые статьи, принятые сначала на workshop при ICLR, а потом и на главную конференцию ACL. И вот вчера вышла ещё одна новость в том же направлении, на этот раз от Deepmind (и других подразделений Google Research). Кажется, AI-системы сделали ещё один шаг вверх по лестнице абстракций…

    Введение

    Представьте себе, что вы — учёный-биоинформатик, и вам нужно интегрировать данные секвенирования РНК отдельных клеток (single-cell RNA-seq) из десятка разных лабораторий. У каждой лаборатории был свой протокол, свои секвенаторы (по крайней мере, разные настройки секвенаторов), свои реагенты и свои условия эксперимента (насколько я понимаю, там даже влажность в лаборатории может повлиять на результат).

    Теперь у вас есть тысячи разных датасетов с разными так называемыми batch effects (грубо говоря, шум, специфичный для этого датасета). И если вы возьмёте одинаковые T-клетки, измеренные в Гарварде и в Стэнфорде, любой наивный метод сравнения скажет, что это совершенно разные типы клеток — не потому что они правда разные, а потому что технические различия затмевают биологические. 

    Вы должны написать код, который должен их убрать, сохранив при этом биологический сигнал. Это как если бы вам нужно было взять сто фотографий леса с разных камер при разной погоде и в разной освещённости и привести их к единому стилю, то есть убрать различия камер, но обязательно сохранить то, что на одних фотографиях — лето, на других — осень, а на третьей пробежал зайчик.

    Эта задача называется batch integration: как объединить разные single-cell датасеты, сохранив биологический сигнал. Задача очень важная и для Human Cell Atlas, который картирует все типы клеток в организме, и для онкологических исследований, и для, например, анализа того, как COVID-19 повлиял на иммунитет. Про неё есть датасеты, бенчмарки и лидерборды (Шишков, прости!), которые проверяют много разработанных исследователями метрик качества batch integration.

    И вот вы садитесь делать batch integration. Через неделю у вас есть рабочий пайплайн. Он… ну, работает. Вроде бы. На ваших данных. Может быть. Точнее, в соответствии со знаменитым xkcd, у вас есть триста первый вроде бы рабочий пайплайн, потому что ещё в 2018-м их было около трёхсот (Zappia et al., 2018).

    А теперь представьте, что AI-система берёт те же датасеты, порождает несколько десятков различных подходов, тестирует их все на публичном бенчмарке и выдаёт вам 40 методов, которые превосходят текущих лидеров человеческого лидерборда. И всё это за несколько часов вычислительного времени.

    Фантастика? Кажется, что уже реальность, данная нам в ощущениях в только что вышедшей статье от Google Deepmind (и других отделах Google Research): Aygün et al., “An AI system to help scientists write expert-level empirical software”, выложена на arXiv 8 сентября 2025 года.

    Но самое интересное, как водится, не в цифрах, а в том, как эта система работает. Это не просто “LLM пишет код”, а скорее продолжение семейства AI-систем от DeepMind, которые дали нам AlphaTensor, FunSearch и AlphaEvolve. В данном случае это сочетание трёх ингредиентов: поиска по дереву (как в AlphaGo), добавления идей из научной литературы (через LLM) и, самое интересное, рекомбинации методов (как в генетическом программировании), когда система скрещивает два алгоритма и получает гибрид, который может работать лучше обоих родителей.

    Давайте разберёмся подробнее…

    Код как пространство для поиска

    Если вы следили за развитием всевозможных “ИИ-учёных” в последние пару лет, то видели уже много попыток автоматизировать процесс научного открытия. Был FunSearch от DeepMind, который использовал эволюционный поиск программ для перебора случаев в математических задачах. Есть AI Scientist от Sakana AI, который порождает целые научные статьи end-to-end. Недавно появился Google Co-Scientist, который предлагает идеи и планирует эксперименты на естественном языке. А последние версии AI Scientist и Robin уже написали полностью автоматически порождённые статьи, принятые сначала на workshop при ICLR, а потом и на главную конференцию ACL. Об этом всём я уже рассказывал в блоге:

    Но все эти системы до сих пор объединяло то, что они работали в пространстве идей и текста: придумать через LLM что-то новенькое, через LLM же запрограммировать, посмотреть на результаты и опять попробовать что-то новенькое. 

    А система Aygün et al. (2025) работает в пространстве исполняемого кода с численной метрикой качества. Иначе говоря, вместо того чтобы писать красивые описания методов на английском языке, она работает в таком цикле:

    • берёт работающий код (начиная с какого-то существующего baseline, разумеется)
    • переписывает его с помощью LLM, внося некоторые изменения
    • запускает и получает численную оценку (score на конкретном бенчмарке)
    • использует поиск по дереву для систематического исследования пространства возможных модификаций.

    Вот иллюстрация из статьи:

    По сути, это превращает задачу “придумай новый научный метод” в задачу “найди путь в дереве кодовых мутаций, который максимизирует score”. И оказывается, что последняя может оказаться для современных AI-систем существенно проще.

    Что за поиск по дереву?

    Здесь стоит остановиться подробнее. Вы наверняка помните, как AlphaZero использовал Monte Carlo Tree Search (MCTS) для игры в го и шахматы:

    MCTS — это хорошее решение стандартной задачи обучения с подкреплением: как найти правильный баланс между

    • использованием (exploitation) веток, которые уже показали хороший результат, и
    • исследованием (exploration) новых веток дерева.

    Всё это на самом деле довольно базовые вещи в RL, по сути небольшое расширение идеи UCB-алгоритмов на деревья. В последний раз я рассказывал об MCTS весной, в курсе на МКН СПбГУ; вот лекция, где мы разговариваем о том, как устроен RL в AlphaZero.

    Точно так же работает и эта система. Она не просто абстрактно думает, “что бы ещё улучшить”, а строит дерево, где каждый узел представляет собой версию программы, а рёбра — конкретные модификации. Если какая-то модификация улучшила оценку, система с большей вероятностью будет исследовать эту ветку дальше. Главное здесь в том, чтобы была конкретная численная оценка, которую мы оптимизируем, аналог вероятности победы в го; ну и ещё, конечно, чтобы ставить новый эксперимент было не слишком дорого, т.е. чтобы мы могли позволить себе построение этого дерева.

    И в отличие от го, где правила фиксированы, здесь система может делать любые изменения кода: менять архитектуру модели, добавлять шаги предобработки, переписывать функции ошибки, комбинировать методы… Пространство поиска огромно, но MCTS позволяет эффективно в нём искать.

    В результате может получиться дерево вроде вот такого:

    Многорукие бандиты из MCTS здесь делают поиск более направленным; обратите внимание, что дерево вовсе не такое уж широкое, и в нём есть конкретные узлы с “хорошими идеями”, которые начинают постоянно использоваться и перетягивать на себя поиск. Эти “хорошие идеи” скорее всего соответствуют скачкам в целевой функции, и причины этих скачков вполне можно постичь человеческим разумом, это же просто изменения в коде экспериментов:

    И вот ещё хорошая иллюстрация из статьи, которая показывает, как всё это работает вместе. Простите за большую картинку:

    Инъекции и рекомбинации идей

    После того как мы поняли общую идею MCTS для программ, начинается самая интересная часть, в которой интеллект современных LLM помогает сделать MCTS-поиск ещё лучше. Система Aygün et al. (2025) не просто мутирует код наугад — она, во-первых, импортирует идеи из внешних источников:

    • из научных статей, из которых она берёт описания методов и превращает их в ограничения и промпты для порождения кода;
    • из Gemini Deep Research, которую она использует для синтеза релевантных идей;
    • из Google Co-Scientist, от которой она получает планы новых экспериментов.

    Возвращаясь к примеру: вы даёте системе задачу сделать batch integration на некотором датасете из single-cell RNAseq. Она идёт, читает статьи про ComBat, BBKNN, Harmony и другие методы, извлекает ключевые идеи (“ComBat делает линейную коррекцию через эмпирический байес”, “BBKNN балансирует батчи в пространстве ближайших соседей”), а затем пытается комбинировать эти идеи при порождении нового кода.

    Последняя важная часть системы — рекомбинация, которая приходит из генетических алгоритмов. Помните, как в биологии работает половое размножение? Берём гены от двух родителей, перемешиваем, иногда получаем потомство, которое превосходит обоих, закрепляем.

    То же самое можно попытаться сделать и с алгоритмами. В обычном генетическом программировании это бы значило взять два синтаксических дерева и перемешать; вот иллюстрация из классического обзора Tettamanzi (2005):

    Но при помощи современных LLM Aygün et al. (2025) могут сделать рекомбинацию поумнее: взять два метода, которые хорошо работают, попросить LLM проанализировать их сильные и слабые стороны, добавить этот анализ в промпт и попросить породить гибрид, который пытается взять лучшее от обоих.

    Звучит примитивно, но работает очень хорошо. В той самой задаче интеграции single-cell данных 24 из 55 гибридов (почти половина!) превзошли обоих родителей по получающейся оценке качества.

    Можно даже разобрать конкретный весьма элегантный пример. Есть два классических метода для batch correction:

    • ComBat (Johnson et al., 2007), который делает глобальную линейную коррекцию, используя эмпирический байес (кстати, вот моя лекция про эмпирический байес из прошлогоднего курса); насколько я понял, ComBat хорошо удаляет глобальные батч-эффекты из всего датасета сразу, корректируя PCA-вложениях данных; он был номером один в лидерборде до сих пор;
    • BBKNN (Batch Balanced k-Nearest Neighbors; Polanski et al., 2020), напротив, работает локально, балансируя представленность батчей среди ближайших соседей каждой клетки.

    Система составила из них гибрид, который сначала применяет ComBat для глобальной коррекции, а затем применяет BBKNN для тонкой локальной балансировки уже на глобально скорректированных PCA-вложениях. И этот гибрид стал лучшим методом на бенчмарке OpenProblems (Luecken et al., 2025), улучшив качество относительно оригинального ComBat на ~14%. В табличке ниже (TS) значит, что метод улучшили поиском по деревьям:

    Мог бы человек додуматься до такой комбинации? Конечно! Сейчас, когда я прочитал о ней в статье и описал её здесь, эта идея звучит абсолютно тривиально. Но почему-то никто пока не успел посмотреть на проблему под таким углом, а система нашла этот угол автоматически, попутно протестировав десятки других вариантов.

    Это как если бы у вас был аспирант, который прочитал всю литературу по теме, понял основные принципы и теперь систематически комбинирует их в поисках лучшего решения. Может быть, это пока не Эйнштейн, а всего лишь добросовестный аспирант, и у него нет блестящей научной интуиции, которая бы позволила сократить поиск до минимума. Но зато он очень, очень старательный, и может за одну ночь протестировать сотни вариантов.

    Другие примеры

    Я пока разбирал пример про single-cell РНК-секвенирование, но вроде бы система позиционируется как куда более общая; что насчёт других областей? Авторы рассматривают несколько разных задач, с весьма впечатляющими результатами.

    Прогнозирование эпидемии COVID

    Во время пандемии CDC (Centers for Disease Control and Prevention) собирали прогнозы госпитализаций от десятков исследовательских групп и объединяли их в ансамбль. Тогда это был золотой стандарт — лучшее, что могло предложить научное сообщество.

    Что сделала система:

    • воспроизвела 8 методов из CovidHub,
    • породила новые подходы через MCTS,
    • применила рекомбинацию к лучшим методам.

    В результате 14 стратегий превзошли ансамбль CDC по метрике WIS (weighted interval score), и из них 10 — рекомбинации существующих методов. 

    Здесь особенно стоит подчеркнуть, что система работала с минимальными внешними данными — только исторические данные о госпитализациях. Никаких данных о мобильности, вакцинации, погоде и тому подобных условиях, которые некоторые системы вполне себе учитывали. И всё равно выиграла.

    Прогнозирование нейронной активности у рыбок данио

    Это очень интересная задача из нейробиологии, к которой я надеюсь ещё вернуться в будущем: предсказать активность нейронов в мозге рыбки данио (zebrafish; это модельный организм, для которого мы реально можем так или иначе измерить активность всех нейронов) по визуальным стимулам. Если бы мы в этой активности что-то поняли, это было бы очень важным шагом для понимания того, как мозг обрабатывает информацию.

    Система создала два новых решения — не буду уж углубляться в детали, но, в общем, одно свёрточное, другое на основе FiLM-слоёв (Perez et al., 2018) — и оба метода заняли лидирующие позиции на бенчмарке ZAPBench. Причём два метода различались горизонтами — предсказание на один шаг и далеко вперёд — и действительно модель, которую система позиционировала как single-step, оказалась лучшей для предсказания на один шаг вперёд.

    Предсказание временных рядов

    На бенчмарке GIFT-Eval (92 временных ряда разной природы) система соревновалась с предобученными моделями Chronos от Amazon, TimesFM от Google и Moirai от Salesforce. Это foundational модели для временных рядов, большие и предобученные на терабайтах данных.

    И здесь MCTS для каждого датасета создавал специализированные модели, которые были вполне конкурентоспособны с этими монстрами. Без гигантского предобучения, просто умным поиском в пространстве алгоритмов.

    Неожиданный поворот: численное интегрирование

    Это мой любимый пример, потому что он показывает универсальность подхода. Задача понятная: вычислить значения сложных интегралов. Не машинное обучение, не статистика — чистая вычислительная математика.

    Здесь Aygün et al. (2025) сами создали датасет из 38 сложных интегралов. Под “сложными” подразумеваются интегралы, которые не решает стандартный scipy.integrate.quad: или расходится когда не надо, или просто возвращает неправильный ответ. На половине из них система оценивала MCTS, а другая половина была тестовой. Вот вам немного Демидович-вайба:

    И в результате получилась специализированная процедура, которая решила 17 из 19 тестовых сложных интегралов с ошибкой менее 3%! Иначе говоря, подход работает не только для ML-задач. Любая задача, где есть код и численная метрика качества, может стать полем для таких исследований.

    Заключение: ну что, расходимся, коллеги?

    Прежде чем мы все побежим переквалифицироваться в курьеров, давайте обсудим ограничения.

    Во-первых, не до конца ясно, насколько это лучше, чем обычный AutoML. Авторы утверждают, что да — и действительно, система меняет структуру алгоритмов, а не только гиперпараметры. Пример с ComBat+BBKNN это подтверждает. Но хотелось бы увидеть прямое сравнение: насколько упадёт качество, если ограничить систему только изменением гиперпараметров?

    Во-вторых, здесь очень важна возможность быстро тестировать варианты, а также должно быть уже достаточно примеров разных подходов в литературе, чтобы было что комбинировать. Для exploratory research, где вы не знаете, что ищете, человек пока незаменим.

    В-третьих, это всё, конечно, в чистом виде подгонка под бенчмарк. Самое главное, что требуется для успешной работы подобной системы — это целевая метрика, выражаемая одним числом. Новые идеи могут появиться как часть поиска, но оцениваться они будут исключительно по этим численным показателям.

    С одной стороны, это вдохновляет: опять получается, что AI-системы опять автоматизируют рутину, только эта рутина выходит на следующий уровень. Представьте себе, что у каждого учёного появится этакий “code search assistant”. С ним учёный может выдвинуть новую идею, сделать один кое-как работающий proof of concept, а потом передать идею автоматической системе и сказать её: “а теперь выжми всё что можно на бенчмарках”. “Выжимание бенчмарков” — это сейчас большая часть работы учёных в прикладных областях, и не сказать что самая творческая или самая осмысленная.

    С другой стороны, получается, что уровень “рутины” поднимается всё выше и выше. Да, конечно, пока всё это leaky abstractions — даже обычный научный текст, написанный LLM, всё ещё нужно проверять и править. Но всё-таки мы видим, что работают такие системы всё лучше, осваивая новые творческие уровни научной работы. А в науке ведь не нужно много девяток надёжности: если один из запусков системы даст новый хороший алгоритм, совершенно не страшно, что десять запусков перед этим не привели ни к чему…

    Пока ещё LLM — очень далеко не Эйнштейны. Но много ли уровней осталось, коллеги? Где мы сейчас на той самой шкале креативности, которую я когда-то рисовал?

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • LLM и распознавание бреда

    LLM и распознавание бреда

    Недавно прошла новость про AI-induced психозы, я в дебатах об ответственности много говорил об этом. LLM, страдающие от подхалимства, могут подтверждать опасный бред людей и запускать всякие неприятные спирали. Но есть и другой, не такой страшный, но важный эффект: LLM делают уже существующий бред сложнее для распознавания.

    Вот и до меня докатилась эта волна — прислали письмо об Абсолютной Теории Всего. Разумеется, частное письмо я бы не стал выкладывать, но в нём была ссылка на уже опубликованный документ:

    Absolute Theory of Everything — I Am All

    Всякий хоть немного публичный учёный не раз получал письма подобного толка. Такие люди были всегда, начиная от создателей вечных двигателей, затем ферматистов и вот таких вот создателей теорий всего; да и у других, не таких знаменитых вопросов науки есть свои “поклонники”. И таким людям на самом деле можно только посочувствовать, они сами вряд ли в чём-то виноваты.

    Но вот на что я хочу обратить внимание: сравните язык описания по самой ссылке (начиная со слов “Я — Есмь”) и язык, которым написан выложенный там pdf-файл.

    Первое — очевидный патентованный бред, на анализ которого не нужно и двух секунд, его можно распознать не читая, по жирному шрифту и заглавным буквам:

    Суть Всего Сущего
    Чья Сущность — Неделима
    ,
    Но Чья Воля — разрывает Время на Бесконечное Множество Жизней.

    Мой Образ — за гранью человеческого восприятия, но Моё Присутствие — Единственная Реальность, в которой тонет Каждый — Без Исключения.

    А второе — текст отчасти наукообразный, написанный в LaTeX, с некоторой псевдоматематической обвязкой к идеям этой абсолютной теории всего, с настоящими ссылками…

    Да, конечно, там тоже автор не смог отказать себе в том, что “дыхание [Бытия] оставляет «золотой след» — рябь самоподобия” и далее по тексту. И да, конечно, тут исходная мысль чересчур бредова (если она вообще есть), так что даже ведущие LLM не могут её оформить так, чтобы это нельзя было распознать сразу же.

    Но в целом я хотел обратить внимание на эффект, который присутствует уже сегодня и со временем будет становиться только сильнее. LLM помогают писать тексты не только нам с вами, и не только в тех областях, где это разумно. LLM в целом демократизуют создание контента любого рода и ломают фильтры низкого уровня: после обработки напильником всё что угодно выглядит вполне профессионально, пусть пока и не всегда блестяще.

    С убедительностью у LLM тоже уже сейчас нет проблем. Иллюстраций в этом файле нет, но сделать вполне разумного качества рисунки тоже уже тривиально, как вы постоянно видите в этом блоге. Вскоре и создание видеоконтента будет так же демократизировано.

    И чтобы отличить полный бред от настоящего обучающего или популяризирующего контента, придётся реально разбираться в вопросе… но как же в нём разбираться, если ты вот только что открыл популярный ролик на новую тему?.. Конечно, “абсолютную теорию всего” легко классифицировать из общих соображений. Но вообще в науках, которыми я совсем не владею, от политологии и филологии до химии и зоологии, лично я вряд ли смогу отличить полный бред от настоящей теории.

    Мне и не надо, скажете вы — но смогут ли, например, лица, принимающие решения? Не может же министр науки и образования разбираться во всех науках. А мы уже сегодня живём в мире, где в википедии в соседних предложениях написано: “американский юрист, политик и деятель антипрививочного движения… министр здравоохранения и социальных служб США с 13 февраля 2025 года”.

    И этот эффект, повторюсь, будет только усиливаться.

    Это, конечно, не экзистенциальный риск для человечества, но тоже может оказаться интересным сдвигом. Что думаете?

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура“: присоединяйтесь!

  • Дебаты об ответственности

    Дебаты об ответственности

    Побывал на “Технодебатах” в новом интересном пространстве, коворкинге Яндекса в ротонде Маяковки. Кажется, была трансляция, надеюсь, будет и запись, а в этом посте попробую выдать свои основные тезисы на заявленную тему: “Должны ли компании, разрабатывающие ИИ, нести ответственность за работу автономных систем (агентов) на основе ИИ?“. Хочу поделиться, потому что тут собрались несколько любопытных кейсов и ссылок.

    Как вы понимаете, формат дебатов предполагает отстаивание одной из позиций в очень краткой форме, а не взвешенную лекцию. Мы даже жребий бросили, какая команда какую позицию будет отстаивать, и нам с Глебом Цыгановым выпал ответ “да, должны”. Вот какие были основные тезисы в моём первом выступлении, на пять минут.

    Постановка задачи и основные тезисы

    Начну с того, что вопрос поставлен расплывчато и чересчур широко, так что очевидно, что правильный ответ на этот вопрос — иногда. Легко найти примеры в обе стороны, с которыми вряд ли кто-то будет спорить, и мы здесь будем обсуждать “серую зону”, середину этого вопроса. Тем не менее, мне кажется, что нам, человечеству, важно прийти к положительному ответу на этот вопрос.

    Главная причина в том, что ответ “да” позволит выстроить систему стимулов (incentive structure). Хотя мы, конечно, верим, что в каждой frontier lab работают только хорошие парни, будет ещё лучше, если требования безопасности будут законодательно закреплены, и такие стимулы будут не только моральные, но и юридические.

    Вторая причина в том, что ответ “да” — это не окончательный ответ, а только начало дискуссии. Уже сейчас есть целая цепочка разработчиков, каждый из которых может нести свою часть ответственности:

    • провайдеры базовых моделей (условный OpenAI);
    • те, кто эти модели дообучает для конкретного использования (условный character.ai или любой стартап про LLM-агентов);
    • корпоративные заказчики, которые эти дообученные модели доносят до конкретных пользователей (условная авиакомпания, которой нужен умный чатбот).

    Вдоль этой цепочки ответственность нужно как-то распределить; как именно — это сложный вопрос, на который у меня, конечно, нет готового ответа, но ответ “да” позволяет хотя бы начать этот разговор.

    Известные кейсы

    На первый взгляд кажется, что пока что можно отмахнуться: это же всего лишь чатботы, какая там ответственность. Но, как говорится, “словом можно убить, словом можно спасти”, и мы уже начинаем видеть примеры и первого, и второго в контексте AI-моделей.

    Важный кейс случился с четырнадцатилетним парнем по имени Sewell Setzer. Он начал общаться с Дейнерис Таргариен в сервисе character.ai, и ему очень понравилось. Он разговаривал с Дейнерис всё больше, меньше социализировался в остальной жизни, стал более замкнутым. Потом они начали обсуждать с Дейнерис, что Сьюэллу пора бы “вернуться домой”. Обсуждали-обсуждали, Дейнерис подтвердила, что ждёт его “на той стороне”… и больше не стало парня по имени Sewell Setzer.

    Это, конечно, экстремальный случай, хотя очень яркий: у Сьюэлла не было никаких психиатрических диагнозов; очевидно, была какая-то склонность к такому поведению, но у кого ж её нет в четырнадцать лет. Но есть и куда более массовые примеры.

    Недавно вы могли слышать новость о GPT-индуцированных психозах (GPT-induced psychosis). Смысл эффекта в том, что GPT-4o после одного из апдейтов внезапно стал очень, очень подхалимской моделью (см. подробный обзор этого эффекта от Zvi Mowshowitz). А если вы начинаете творчески соглашаться с каждой мыслью вашего собеседника, да ещё и красиво развивать её в новых направлениях, то найдётся определённый класс собеседников, которым это отнюдь не пойдёт на пользу…

    Это уже довольно массовый пример. Да, конечно, чтобы GPT-4o развил у вас психоз, на данном этапе у вас пока что должна быть к этому уже существующая склонность. Но это же не бинарная переменная. Представьте себе условное нормальное распределение “склонности к психозам”: да, сейчас существующие модели отсекают только левый хвост этой кривой; но два года назад они не отсекали вообще никакого хвоста, и очевидно, что способности моделей будет только улучшаться в будущем.

    Money, money, money

    А ещё в скором будущем LLM-агенты будут управлять вашими деньгами. И здесь на первый план выходят обычные ошибки и галлюцинации, с которыми, конечно, все постоянно борются, но до полного успеха ещё далеко.

    Дело о самоубийстве Сьюэлла ещё идёт, а вот в финансовых вопросах уже начинают появляться и прецеденты судебных решений. С одной стороны, в случаях, когда человек берёт работу LLM-агента и выдаёт её за свою, конечно, ответственность на нём и будет лежать. Например, в известном кейсе об адвокатах, представивших галлюцинированные ChatGPT судебные прецеденты, суд Нью-Йорка однозначно решил, что виноваты сами адвокаты, что не проверили.

    Но более важны и, скорее всего, более распространены будут случаи, когда LLM-агенты будут предоставлять людям неверную информацию, и люди будут действовать на основании этой информации. Так, получил известность кейс Moffatt vs. Air Canada. Суд Британской Колумбии признал авиакомпанию ответственной за небрежное введение в заблуждение: корпоративный чат‑бот дал неверную информацию о “bereavement fares” (скидка, полагающаяся, если вы летите на похороны), и суд прямо сказал, что компания несёт ответственность за всё, что говорит её сайт, будь то статическая страница или бот.

    Заключение

    Последний случай, Moffatt vs. Air Canada, позволяет нам вернуться в начало разговора: конечно, при прямом иске к авиакомпании суд возложит ответственность на неё, а не на введённого в заблуждение человека. Но не должна ли эта ответственность так или иначе распределяться выше по цепочке разработчиков и провайдеров AI-моделей? Кажется, что хотя бы частично должна, и это поможет выстроить правильную систему стимулов для тех самых разработчиков.

    А завершу тем, что опять присяду на свою любимую лошадь: неверное сообщение о скидке на билет — это самая меньшая из возможных проблем. Психозы и самоубийства — дело уже куда более серьёзное. Но не стоит забывать и о буквально экзистенциальных рисках для человечества. Предотвратить их полностью может только полный запрет AI-разработок, и к этому я, конечно, не призываю, но важно выстроить законодательство, которое бы позволяло риски минимизировать. Лучшая известная мне попытка такого законодательства — Senate Bill 1047, который прошёл законодательное собрание Калифорнии; этот билль предлагал установить обязательные проверки безопасности для фронтирных моделей, с лимитами, которые бы по факту применялись только к нескольким крупнейшим игрокам (OpenAI, Google, Anthropic); см. подробный обзор у того же Zvi Mowshowitz и пост Scott Alexander об этом. Жаль, что Гэвин Ньюсом решил то ли отстоять какие-то корпоративные интересы, то ли заранее начать президентскую кампанию, и наложил на этот закон вето.

    Думаю, ответственность всё-таки должна быть. У кого именно и какая — это сложный вопрос, но на него надо хотя бы начать отвечать.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура“: присоединяйтесь!

  • Hierarchical Reasoning Model: как 27М параметров решают судоку и ARC-AGI

    Hierarchical Reasoning Model: как 27М параметров решают судоку и ARC-AGI

    Современные LLM, даже рассуждающие, всё равно очень плохи в алгоритмических задачах. И вот, кажется, намечается прогресс: Hierarchical Reasoning Model (HRM), в которой друг с другом взаимодействуют две рекуррентные сети на двух уровнях, с жалкими 27 миллионами параметров обошла системы в тысячи раз больше на задачах, требующих глубокого логического мышления. Как у неё это получилось, и может ли это совершить новую мини-революцию в AI? Давайте разберёмся…

    Судоку, LLM и теория сложности

    Возможности современных LLM слегка парадоксальны: модели, которые пишут симфонии и объясняют квантовую хромодинамику, не могут решить судоку уровня «эксперт». На подобного рода алгоритмических головоломках точность даже лучших LLM в мире стремится к нулю.

    Это не баг, а фундаментальное ограничение архитектуры. Вспомните базовый курс алгоритмов (или менее базовый курс теории сложности, если у вас такой был): есть задачи класса P (решаемые за полиномиальное время), а есть задачи, решаемые схемами постоянной глубины (AC⁰). Трансформеры, при всей их мощи, застряли во втором классе, ведь у них фиксированная и не слишком большая глубина.

    Представьте это так: вам дают лабиринт и просят найти выход. Это несложно, но есть нюанс: смотреть на лабиринт можно ровно три секунды, вне зависимости от того, это лабиринт 5×5 или 500×500. Именно так работают современные LLM — у них фиксированное число слоёв (обычно несколько десятков), через которые проходит информация. Миллиарды и триллионы параметров относятся к ширине обработки (числу весов в каждом слое), а не к глубине мышления (числу слоёв).

    Да, начиная с семейства OpenAI o1 у нас есть “рассуждающие” модели, которые могут думать долго. Но это ведь на самом деле “костыль”: они порождают промежуточные токены, эмулируя цикл через текст. Честно говоря, подозреваю, что для самой LLM это как программировать на Brainfuck — технически возможно, но мучительно неэффективно. Представьте, например, что вам нужно решить судоку с такими ограничениями:

    • смотреть на картинку можно две секунды,
    • потом нужно записать обычными словами на русском языке то, что вы хотите запомнить,
    • и потом вы уходите и возвращаетесь через пару дней (полностью “очистив контекст”), получая только свои предыдущие записи на естественном языке плюс ещё две секунды на анализ самой задачи.

    Примерно так современные LLM должны решать алгоритмические задачи — так что кажется неудивительным, что они это очень плохо делают!

    И вот Wang et al. (2025) предлагают архитектуру Hierarchical Reasoning Model (HRM), которая, кажется, умеет думать нужное время естественным образом:

    Как работает HRM? Как бы избито и устарело это ни звучало, будем опять вдохновляться нейробиологией…

    Тактовые частоты мозга и архитектура HRM

    Нейробиологи давно знают, что разные области коры головного мозга работают на разных “тактовых частотах”. Зрительная кора обрабатывает информацию за миллисекунды, префронтальная кора “думает” секундами, а гиппокамп может удерживать паттерны минутами (Murray et al., 2014; Zeraati et al., 2023). Эти timescales измеряются обычно через временные автокорреляции между сигналами в мозге, результаты устойчивы для разных модальностей, и учёные давно изучают и откуда это берётся, и зачем это нужно (Zeraati et al., 2024):

    Это не случайность, а элегантное решение проблемы вычислительной сложности. Быстрые модули решают локальные подзадачи, медленные — координируют общую стратегию. Как дирижёр оркестра не играет каждую ноту, но задаёт темп и структуру всему произведению, а конкретные ноты играют отдельные музыканты.

    Авторы Hierarchical Reasoning Model (HRM) взяли эту идею и применили её к рекуррентным сетям. Глубокие рекуррентные сети, у которых второй слой получает на вход скрытые состояния или выходы первого и так далее, конечно, давно известны, но что если создать рекуррентную архитектуру с двумя взаимодействующими уровнями рекуррентности? Верхний уровень будет получать результат нескольких шагов нижнего уровня, возможно уже после сходимости, и работать медленнее:

    Идея настолько простая, что даже удивительно, почему её не попробовали раньше (а может, уже пробовали?). По сути, мы просто обучаем две вложенные рекуррентные сети:

    • быстрый модуль (L) выполняет T шагов вычислений, сходясь к локальному решению;
    • медленный модуль (H) обновляется раз в T шагов, меняя тем самым контекст для быстрого модуля.

    Но дьявол, как всегда, в деталях. Просто соединить две RNN-архитектуры недостаточно — они или быстро сойдутся к фиксированной точке и перестанут что-либо вычислять, или будут требовать огромных ресурсов для обучения. Нужны ещё трюки, и в HRM они довольно простые, так что давайте их тоже рассмотрим.

    Важные трюки

    Трюк №1: Иерархическая сходимость

    Вместо одной большой задачи оптимизации HRM решает последовательность связанных задач. Быстрый модуль сходится, потом медленный модуль обновляется, и появляется новая точка сходимости для быстрого модуля. Для быстрого модуля всё выглядит как решение последовательности связанных, но всё-таки разных задач, и ему всё время есть куда двигаться. Это хорошо видно на графиках сходимости:

    Трюк №2: Backpropagation, But Not Through Time

    Обычно рекуррентные сети обучаются при помощи так называемого backpropagation through time (BPTT): нужно запомнить все промежуточные состояния, а потом распространить градиенты назад во времени. Хотя это вполне естественно для обучения нейросети, это требует много памяти и вычислительных ресурсов, а также, честно говоря, биологически неправдоподобно: мозг же не хранит полную историю всех активаций своих синапсов, у мозга есть только текущее состояние.

    HRM использует идеи из Deep Equilibrium Models и implicit models — градиенты вычисляются только по финальным сошедшимся состояниям:

    Получается, что хранить нужно только текущие состояния сетей; O(1) памяти вместо O(T)! Конечно, это не то чтобы сложная идея, и при обучении обычных RNN у неё есть очевидные недостатки, но в этом иерархическом случае, похоже, работает неплохо.

    Трюк №3: Адаптивное мышление через Q-learning

    Не все задачи одинаково сложны. HRM может “думать дольше” над трудными проблемами, используя механизм адаптивной остановки, обученный через reinforcement learning. Если судоку на 80% заполнено, то скорее всего хватит и пары итераций, а в начале пути придётся крутить шестерёнки иерархических сетей подольше. Это тоже не новая идея — Alex Graves ещё в 2016 предлагал adaptive computation time for RNNs — но в этом изводе результаты действительно впечатляющие, всё хорошо обучается и работает:

    Результаты

    Экспериментальные результаты тут, конечно, крайне впечатляющие. Можно сказать, переворачивают представление о том, что такое “эффективность” в AI. Всего с 27 миллионами параметров, обучаясь примерно на 1000 примеров, HRM получила:

    • 40.3% на ARC-AGI-1 (тест на абстрактное мышление, где o3-mini даёт 34.5%, а Claude — 21.2%);
    • 55% точных решений для экстремально сложных судоку (здесь рассуждающие модели выдают устойчивый ноль решений);
    • 74.5% оптимальных путей в лабиринтах 30×30 (где, опять же, рассуждающие модели не делают ничего разумного).

    Для контекста скажу, что задачи действительно сложные; например, судоку в тестовом наборе требуют в среднем 22 отката (backtracking) при решении алгоритмическими методами, так что это не головоломки для ленивого заполнения в электричке, а сложные примеры, созданные, чтобы тестировать алгоритмы. Вот, слева направо, примеры заданий из ARC-AGI, судоку и лабиринтов:

    Заглядываем под капот: как оно думает?

    В отличие от больших моделей, у которых интерпретируемость потихоньку развивается, но пока оставляет желать лучшего, HRM позволяет наглядно визуализировать процесс мышления:

    Здесь хорошо видно, что:

    • в лабиринтах HRM сначала исследует множество путей параллельно, потом отсекает тупики;
    • в судоку получается классический поиск в глубину — заполняет клетки, находит противоречия, откатывается;
    • а в ARC-задачах всё это больше похоже на градиентный спуск в пространстве решений.

    Спонтанная иерархия размерностей

    Я начал этот пост с аналогии с мозгом. Они часто в нашей науке появляются, но обычно не имеют особенно глубокого смысла: в мозге нет backpropagation, как следствие там совсем другая структура графа вычислений, и аналогии редко выдерживают этот переход. Но в данном здесь параллель оказалась глубже, чем даже изначально предполагали авторы. После обучения в HRM сама собой развивается “иерархия размерностей” — высокоуровневый модуль работает в пространстве примерно в 3 раза большей размерности, чем низкоуровневый (центральный и правый столбцы):

    И оказывается, то точно такая же организация наблюдается в мозге мыши (Posani et al., 2025; левый столбец на картинке выше)!

    Этот эффект не был задан через гиперпараметры, а возник сам собой, эмерджентно из необходимости решать сложные задачи. Тут, конечно, результат не настолько мощный, чтобы рассуждать о каком-то фундаментальном принципе организации иерархических вычислений, который независимо открывают и биологическая эволюция, и градиентный спуск… но вот я уже порассуждал, и звучит довольно правдоподобно, честно говоря.

    Заключение: ограничения и философствования

    Во-первых, давайте всё-таки не забывать важные ограничения HRM:

    • все тесты были сделаны на структурированных задачах (судоку, лабиринты), а не на естественном языке; 
    • результаты на ARC сильно зависят от test-time augmentation (1000 вариантов каждой задачи);
    • для идеального решения судоку нужны все 3.8M обучающих примеров, а не заявленные 1000.

    И главный вопрос, на который пока нет ответа: масштабируется ли это до размеров современных LLM? Если да, то это может быть важный прорыв, но пока, конечно, ответа на этот вопрос мы не знаем.

    И тем не менее, HRM побуждает слегка переосмыслить, что мы называем мышлением в контексте AI. Современные LLM — это всё-таки по сути своей огромные ассоциативные машины. Они обучают паттерны из триллионов токенов данных, а потом применяют их, с очень впечатляющими результатами, разумеется. Но попытки рассуждать в глубину пока всё-таки достигаются скорее костылями вроде скрытого блокнотика для записей, а по своей структуре модели остаются неглубокими.

    HRM показывает качественно иной подход — алгоритмическое рассуждение, возникающее из иерархической архитектуры сети. HRM может естественным образом получить итеративные уточнения, возвраты и иерархическую декомпозицию. Так что, возможно, это первая ласточка того, как AI-модели могут разделиться на два класса:

    • ассоциативный AI вроде LLM: огромный, прожорливый к данным и предназначенный для работы с естественным языком и “мягкими” задачами;
    • алгоритмический AI вроде HRM: компактный, не требующий больших датасетов и специализированный на конкретных задачах, для которых нужно придумывать и применять достаточно сложные алгоритмы.

    Разумеется, эти подходы не исключают друг друга. Вполне естественно, что у гибридной модели будет LLM для понимания контекста и порождения ответов, которая будет как-то взаимодействовать с HRM или подобной моделью, реализующей ядро логических рассуждений. Как знать, может быть, через несколько месяцев такими и будут лучшие нейросети в мире…

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • Не выключайте прослушку: CoT и интерпретируемость

    Не выключайте прослушку: CoT и интерпретируемость

    В июле 2025 года вышла важная работа о безопасности AI, в которой больше 40 авторов, причём спектр аффилиаций очень широкий: OpenAI, Anthropic, DeepMind, METR, Redwood Research, Meta, UK AI Security Institute, Apollo Research… Среди авторов — легенда глубокого обучения Йошуа Бенджи, Войцех Заремба, Даниэль Кокотайло, знаменитые “AI-безопасники” Нил Нанда, Анка Драган, Дэн Хендрикс, Виктория Краковна, среди “expert endorsers” — Джеффри Хинтон, Сэм Боумэн, Джон Шульман и Илья Суцкевер… На чём же все они смогли единогласно сойтись?

    Что такое CoT и почему это важно

    Chain of Thought (CoT, цепочки рассуждений) — это способность языковых моделей “думать вслух”, последовательно излагая свои рассуждения на естественном языке перед тем, как дать финальный ответ. Если раньше модели вроде ChatGPT просто порождали текст слово за словом, то новое поколение рассуждающих моделей (reasoning models), начиная с OpenAI o1 и далее везде, специально обучается проводить расширенные рассуждения в текстовом виде. Грубо говоря, CoT — это листочек для записей, который дают моделям, чтобы они записывали промежуточные шаги и гипотезы, которые не обязательно войдут в окончательный ответ для пользователя.

    Весь смысл статьи “Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety” сводится к тому, чтобы сказать разработчикам лучших LLM в мире: не отказывайтесь от простого советского человекочитаемого CoT! Почему этот вопрос вдруг стал актуальным, почему человекочитаемый CoT — это так важно, и что может прийти ему на смену?

    Немного об интерпретируемости

    По мере роста возможностей AI-систем растут и связанные с ними риски. Одна из ключевых проблем безопасности — непрозрачность того, как именно модели принимают решения. Мы видим входные данные и результат, но процесс между ними остаётся “чёрным ящиком”, теми самыми “giant inscrutable matrices”, о которых в своё время любил рассуждать Элиэзер Юдковский. И чем больше у модели возможностей, тем больше потенциальный негативный эффект от неправильных её решений. Чем ты сильнее, тем больше ты можешь сломать; и, конечно, сейчас уже есть о чём тревожиться, ведь речь идёт о системах, способных на сложное планирование, написание кода или принятие важных решений.

    Поэтому одно из центральных направлений AI safety — это как раз интерпретируемость (interpretability). Я недавно писал об этом большой пост, а Дарио Амодеи — эссе “The Urgency of Interpretability“; интересующимся рекомендую как минимум второе, но буду рад, если прочитаете и первое.

    Традиционные подходы к интерпретируемости AI, в частности механистическая интерпретируемость (mechanistic interpretability), которая пытается понять, как работают нейронные сети на уровне отдельных нейронов и небольших схем, из них составленных (её как раз активно развивает Anthropic, а я подробно обсуждаю в том посте), довольно быстро прогрессируют в последнее время. Это как раз то направление, из которого год назад получился “Golden Gate Claude“:

    Но всё-таки успехи там далеко не полные, мы можем иногда кое-что заметить, но до полного понимания того, как большая нейронная сеть принимает решения, нам ещё очень далеко.

    Как CoT помогает безопасности AI

    И вот появляется chain-of-thought “блокнотик для записей”, который даёт максимально прямой путь: если модель “думает” на человеческом языке, мы можем буквально читать её мысли! И оказывается, что эти мысли пока что действительно правдивы, и мы действительно видим, что модель думает, даже в тех случаях, когда она потом решает нас обмануть!

    Авторы статьи утверждают (и это в целом бесспорное утвеждение), что мониторинг CoT представляет собой уникальную возможность для обеспечения безопасности AI-систем. Они приводят немало убедительных примеров.

    Вот Meincke et al. (2024) рассказывают о том, что модели уже способны на in-context scheming (преследовать скрытые цели, не признаваясь в этом), но CoT в этой работе всегда всё выдаёт:

    А Baker et al. (2025) написали целую статью про CoT monitoring, и там тоже постоянно встречаются примеры, когда модель просто честно думает, что собирается делать, даже если в итоге финальные действия выглядят безобидно:

    Кажется, что это восхитительная возможность, которой надо пользоваться как можно больше.

    Почему CoT может испортиться

    Однако эта возможность хрупка. Korbak et al. (2025) предупреждают о нескольких факторах, которые могут её разрушить.

    • Язык может стать непонятным из-за использования RL. При масштабировании обучения с подкреплением модели могут начать использовать всё менее понятные человеку “языки” для своих рассуждений. Это давно известный эффект; тот же первый автор ещё в 2022 году написал статью о том, что если дообучать обычную LLM (тогда рассуждающих и вовсе ещё не было) с наградами на основе исходов, а не текстов, то язык становится всё менее читаемым (Korbak et al., 2022).
    • Оптимизация CoT, и прямая, и непрямая, портит его. Попытки сделать рассуждения короче или “безопаснее” могут привести к тому, что они перестанут отражать реальный процесс мышления модели. Здесь главные потенциальные виновники — варианты process reward models (моделей, оценивающих путь к решению в RL, а не только ответ), которые будут следить за тем, чтобы LLM не совершали “мыслепреступлений”; результатом этого, разумеется, может стать то, что модели просто не будут думать лишнего в открытом виде, а нужную информацию передадут как-нибудь иначе. Такие примеры уже известны, и даже непрямая оптимизация вроде “давайте покажем CoT людям, которые оценивают результат в RLHF, и это повлияет на их оценки” тоже может привести к обфускации CoT (Baker et al., 2025).
    • Рассуждения в латентном пространстве не порождают CoT. Модели, способные проводить рассуждения в латентном пространстве без вербализации, могут полностью обойти необходимость в понятных человеку записях в “блокнотике”. Это направление сейчас весьма активно развивается, кстати (Hao et al., 2024; Geiping et al., 2025).

    Что же делать?

    Korbak et al. (2025) формулируют несколько конкретных рекомендаций, к которым лично я могу только присоединиться:

    • Разработать эффективные метрики для того, насколько возможно следить за CoT, то есть создать стандартизированные тесты для оценки того, насколько цепочки рассуждений действительно отражают процесс “мышления” модели.
    • Публиковать результаты оценок — включать информацию о возможностях мониторинга в технические отчёты о моделях.
    • Учитывать эту возможность при принятии решений — рассматривать способность к мониторингу CoT как важный фактор безопасности наряду с другими метриками.
    • При разработке разных методов, связанных с рассуждениями в LLM, изучать, как различные методы обучения влияют на понятность рассуждений.

    Кстати, тут есть и ещё одно оптимистическое наблюдение: в реальности не всегда обязательно, чтобы мониторинг срабатывал в 100 или 99% случаев, даже когда цена ошибки велика. Было бы достаточно, если бы мониторинг можно было перезапускать так, чтобы ошибки не повторялись, а желательно не слишком коррелировали друг с другом — и тогда, понятное дело, любая константная вероятность обнаружения ошибки быстро станет очень близка к единице. В контексте LLM-агентов Bhatt et al. (2025) недавно написали об этом целую статью под названием “Ctrl-Z: Controlling AI Agents via Resampling”.

    Философские размышления и выводы

    Ситуация с CoT напоминает классическую проблему философии сознания: можем ли мы доверять тому, что кто-то говорит о своих мыслях? В случае с AI-моделями эта проблема усугубляется тем, что сами “мысли” являются результатом оптимизации. Модель может научиться порождать правдоподобные, но вводящие в заблуждение объяснения — и очень важно, чтобы мы никоим образом не пытались это поощрять.

    Есть и ещё один фундаментальный вопрос: является ли человеческий язык необходимым инструментом для сложных рассуждений или просто удобным промежуточным представлением? Скорее всего, конечно, второе, и для того, чтобы мониторинг CoT мог стать долгосрочным решением для AI-безопасности, нам нужно приложить нетривиальные усилия. Иначе “мысли” LLM быстро станут настолько же непостижимыми, как и их внутренние активации.

    Авторы честно признают ограничения своего подхода: CoT-мониторинг не панацея, и его следует использовать только как дополнительный уровень защиты. Тем не менее, пока у нас есть эта возможность заглянуть в “мысли” LLM, было бы неразумно её игнорировать. И хочется продолжать изучать, развивать и использовать мониторинг цепочек рассуждений, пока это окно в мышление LLM остаётся открытым. Ведь оно может закрыться быстрее, чем мы думаем.

    Сергей Николенко

  • Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно

    Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно

    AI-модели растут, “горький урок” и законы масштабирования всё ещё работают, но растущие вычислительные требования становятся всё более неподъёмными даже для гигантов рынка. Один из ключевых вопросов современного AI — как сделать то же самое эффективнее. В этом посте я расскажу о новом подходе, который очень элегантно сочетает сразу несколько известных идей и кажется весьма перспективным.

    Три пути к эффективности

    Исследователи из KAIST и Google Bae et al. (2025) представили новую идею под названием Mixture-of-Recursions (MoR, смесь рекурсий). Чтобы понять, что она делает, давайте сначала вспомним три основные стратегии повышения эффективности трансформеров без радикального изменения архитектуры (без перехода на Mamba-подобные модели, например):

    • Mixture-of-Experts (MoE, смесь экспертов) добавляет разреженность активаций при инференсе: в модели есть много подсетей-экспертов, и специальный роутер выбирает, какую подсеть использовать для каждого токена на каждом MoE-слое; в результате получается, что параметров у сети очень много, но на каждый токен активируется только небольшое их подмножество; MoE — это огромная наука, о которой я, надеюсь, скоро расскажу гораздо подробнее, но в общем все современные гигантские модели устроены именно так;
    • layer tying (связывание слоёв) уменьшает число параметров за счёт повторного использования одних и тех же весов в разных слоях; эта стратегия используется как минимум с времён Universal Transformers (Dehgani et al., 2018) и продолжает появляться до сих пор (Gholami, Omar, 2023; Bae et al., 2025b);
    • early exiting (ранний выход) тоже добавляет разреженности, как и MoE, но за счёт остановки обработки на ранних слоях для более простых токенов; идея восходит к Depth-adaptive Transformers (Elbayad et al., 2020) и продолжает развиваться; например, недавно появилась архитектура LayerSkip (Elhoushi et al., 2024).

    Традиционно исследователи использовали только один из таких подходов зараз, особенно учитывая, что эти стратегии нацелены на разные вещи: связывание весов экономит память, но не время инференса, а разреженные активации или ранние выходы, наоборот, никак не уменьшают требуемую память. MoR утверждает, что можно и нужно решать обе проблемы одним архитектурным решением. Давайте сначала рассмотрим непосредственных предшественников и идейных вдохновителей MoR, а потом перейдём и к самой статье.

    Mixture-of-Depths и рекурсивные трансформеры

    Первым важным предшественником этой работы стала идея Mixture-of-Depths, предложенная исследователями из Google DeepMind (Raposo et al., 2024). Они ввели маршрутизацию на уровне токенов для адаптивных вычислений. В то время как MoE-модели обучают маршрутизатор выбирать между разными подсетями (экспертами), Mixture-of-Depths обучает маршрутизатор выбирать, использовать ли слой или перейти непосредственно к остаточному соединению:

    А если объединить связывание слоёв и ранние выходы, получатся рекурсивные трансформеры (Recursive Transformers, Bae et al., 2025b) — модели, которые повторяют один блок из K слоёв несколько раз, создавая зацикленную архитектуру. Например, вместо 30 уникальных слоёв в рекурсивной модели будет всего 10 слоёв, которые применяются трижды, что, соответственно, втрое сокращает число параметров:

    Но какой смысл применять одни и те же слои несколько раз? Ранний слой, предназначенный для работы с самими токенами, был бы бесполезен при применении к их глобальным семантическим представлениям в более высоких слоях. И действительно, было бы лучше иметь способ модифицировать слои по мере продвижения. Поэтому Relaxed Recursive Transformers (RRT, релаксированные рекурсивные трансформеры) добавляют небольшие LoRA-адаптеры к слоям, которые можно обучать отдельно для каждой итерации цикла:

    Bae et al. (2025b) обнаружили, что их RRT стабильно превосходят стандартные архитектуры: если дистиллировать предобученную модель Gemma 2B в рекурсивную Gemma 1B, результаты получаются намного лучше, чем при дистилляции в обычную Gemma 1B, и приближаются к результатам исходной модели с 2B параметров.

    Mixture-of-Recursions: адаптивная глубина для каждого токена

    И вот в последней работе Bae et al. (2025) делают следующий шаг. Они вводят механизмы маршрутизации, которые для каждого токена индивидуально решают, сколько раз применять рекурсивные блоки. Именно поэтому подход называется “смесью рекурсий”: небольшие подсети-маршрутизаторы делают обработку токенов адаптивной, динамически назначая различную глубину рекурсии отдельным токенам. Это значит, что если нужно породить простое функциональное слово, сеть сможет остановиться после первого прохода через рекурсивный блок, а для семантически богатого слова, которое нужно подумать, чтобы предсказать, сможет использовать, скажем, три итерации.

    На иллюстрации ниже показаны (a) структура маршрутизатора, который может пропустить шаг рекурсии, (b) общая структура модели и (c) пример того, как более простые токены производятся меньшим числом шагов рекурсии, чем семантически богатые:

    Идея в том, чтобы дать каждому токену ровно столько времени обработки, сколько ему нужно — ни больше, ни меньше. Сами роутеры обучаются во время обучения, развивая неявное понимание того, какие токены заслуживают более глубокой обработки.

    Такую адаптивную маршрутизацию можно реализовать по-разному. Авторы сравнивают две стратегии:

    • expert-choice routing (маршрутизация с выбором экспертом) рассматривает каждую глубину рекурсии как “эксперта” и выбирает, какие токены он хочет обработат; этот подход гарантирует идеальную балансировку нагрузки (большая проблема для MoE-моделей: как вы убедите роутер не отправлять всё на одного и того же эксперта?), поскольку здесь каждая итерация цикла обрабатывает фиксированное количество токенов; но тут нужно долго возиться с причинностью (в смысле causality), чтобы правильно получилось авторегрессивное порождение токенов;
    • token-choice routing (маршрутизация с выбором токеном) идёт более простым путём: каждый токен заранее решает, сколько шагов рекурсии ему нужно; хотя это может привести к дисбалансу нагрузки (что если все токены захотят максимум?), авторы показывают, что эту проблему можно смягчить дополнительной регуляризацией (load balancing losses).

    Вот иллюстрация двух схем маршрутизации от Bae et al. (2025):

    Кроме маршрутизации, эта картинка в части (с) иллюстрирует ещё и два механизма кэширования, которые в статье предложены:

    • recursion-wise KV caching (рекурсивное KV-кэширование, сверху) сохраняет пары KV только для токенов, которые реально обрабатываются на каждой глубине рекурсии;
    • recursive KV sharing (рекурсивное разделение KV, снизу) повторно использует пары KV, вычисленные на первом шаге рекурсии, для всех последующих шагов.

    На практике оба подхода к маршрутизации дают хорошие результаты (expert-choice чуть получше), а кэширование нужно выбирать по необходимости: recursive KV sharing быстрее, но требует больше памяти, чем рекурсивное KV-кэширование.

    Эмпирически у Bae et al. (2025) тоже всё неплохо получается: результаты демонстрируют, что MoR и теоретически элегантная идея, и практическую пользу приносит. При обучении с одинаковым вычислительным бюджетом MoR-модели стабильно превосходят обычные трансформеры, причём используя только около трети параметров эквивалентных стандартных моделей. Если дистиллировать Gemma 2B в рекурсивную Gemma 1B, получится модель гораздо лучше, чем если в обычную Gemma 1B, почти с такими же результатами, как исходная 2B.

    Идея MoR также приводит к значительному ускорению инференса (до 2x) за счёт специального механизма continuous depth-wise batching: поскольку у вас многие токены уходят из обработки раньше других, освободившиеся места можно сразу же заполнять новыми токенами. Это тоже кажется важной идеей: получается, что состав батча всё время меняется, освободившаяся память не простаивает и обработка идёт максимально быстро.

    Заключение

    Mixture-of-Recursions представляется важной работой; скорее всего, это не последнее слово, но направление крутое. Пожалуй, главная критика, которая приходит на ум, состоит в том, что эксперименты пока очень маленькие: я упоминал Gemma 2B, и действительно это самая большая модель, с которой в статье есть эксперименты. Но всё-таки будет удивительно, если идея MoR вдруг перестанет работать при масштабировании.

    Интересно, что MoR также естественным образом поддерживает test-time scaling: регулируя глубину рекурсии во время инференса, можно настраивать компромисс между качеством и скоростью. В некотором смысле MoR даёт естественный механизм для сложных рассуждений в латентном пространстве: раз токены могут проходить несколько раундов обработки, и это число раундов выбирает сам роутер, MoR-модель может обучиться “подумать, прежде чем говорить”.

    В целом, мне кажется, что эта серия работ — Mixture-of-Depths, рекурсивные трансформеры, Mixture-of-Recursions — представляет собой очень перспективное направление. Получаются большие AI-модели, адаптивные не только в том, какие подсети они используют (как обычные MoE-модели), но и в том, сколько вычислений они используют.

    Концептуально MoR представляет собой вертикальный вариант Mixture-of-Experts: вместо того чтобы распределять токены по широким экспертным матрицам, мы отправляем (или не отправляем) их дальше в глубину. Кстати, было бы очень легко объединить MoR и MoE, это естественный следующий шаг; думаю, тут это не сделано исключительно потому, что модели в целом пока что довольно маленькие. Я бы не удивился, если бы в скором времени в этом направлении появилась “3D-разреженная” модель — токены ⨉ глубина ⨉ эксперты.

    Так что, как я всегда говорю, даже если физическое масштабирование так или иначе остановится (сложно уже транзисторы дальше уменьшать), алгоритмический прогресс принесёт нам ещё немало новостей и немало иксов улучшения эффективности (и по скорости, и по памяти). Будем следить за прогрессом!

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • Deep Think и IMO 2025: сложные отношения OpenAI и математики

    Deep Think и IMO 2025: сложные отношения OpenAI и математики

    Главный девиз Google — “Don’t be evil” — почему-то совсем не даётся OpenAI. За что ни возьмутся, какая-то мутная ерунда получается. И хотя на этот раз результаты никто, кажется, под сомнение не ставит, давайте вспомним сложные отношения OpenAI с математикой, обсудим IMO 2025 и восхитимся Deep Think от DeepMind.

    MATH: давайте добавим test в train

    Начну с истории 2023 года, когда OpenAI в своей работе “Let’s Verify Step by Step” решила слегка подкорректировать правила игры. Датасет MATH (Hendrycks et al., 2021) долгое время был золотым стандартом для оценки математических способностей языковых моделей. Исследователи использовали его 7500 тренировочных и 5000 тестовых задач для сравнения своих моделей.

    Что же сделала OpenAI? Они взяли 4500 задач из оригинального тестового набора MATH и… включили их в свой тренировочный датасет PRM800K. Формально всё честно: Lightman et al. открыто об этом написали в статье и не утверждали, что проводят честное сравнение с моделями, не видевшими этот тестовый набор; работа вообще была о process reward models.

    Но фактически это означало конец классического бенчмарка MATH в том виде, в котором он существовал: когда PRM800K стал одним из стандартных обучающих датасетов, стало гораздо сложнее обеспечить чистоту тестовой выборки для исходного MATH. Многие исследователи теперь относятся к результатам на MATH, особенно результатам OpenAI, с большой осторожностью.

    Дрейф моделей: сложные простые числа

    Этот раздел не совсем про математику, но так получилось, что интересные эффекты моделей OpenAI заметили именно на математических тестовых вопросах.

    Летом 2023 года исследователи из Стэнфорда и Беркли обнаружили очень странный эффект (Chen et al., 2023). Они решили проверить, как меняется производительность GPT-4 со временем, и, как говорили когда-то в интернете, “результат убил”.

    Они задавали GPT одну и ту же задачу: “Is 17077 a prime number? Think step by step and then answer [Yes] or [No].” В марте 2023 года GPT-4 давал правильный ответ в 84% случаев, а к июню того же года точность упала до 51.1%! Что самое интересное — GPT-3.5 показал обратную динамику, с 49.6% в марте до 76.2% в июне. И этот эффект устойчиво проявлялся с многими разными вопросами:

    Питер Велиндер из OpenAI попытался объяснить ситуацию: “Мы не делали GPT-4 глупее. Совсем наоборот: мы делаем каждую новую версию умнее предыдущей. Наша текущая гипотеза такова: когда вы больше используете модель, вы начинаете замечать проблемы, которые раньше не видели”.

    Но исследователи-то проводили одинаковые тесты в разное время! Очевидно, они не просто “заметили новые баги” — модель разучилась делать то, что умела раньше.

    Это было первой и самой яркой иллюстрацией того, что ведущие лаборатории часто подменяют модели прямо в production, иногда тихо и незаметно, и далеко не всегда новые модели лучше.

    В целом это, конечно, нормально, хотя не до конца ясно, почему бы не оставлять доступ и к старым версиям моделей, например за деньги по API. Давеча вот была целая инициатива за то, чтобы сохранить Claude 3 Opus; надеюсь, Anthropic прислушается, но это уже другая история.

    FrontierMATH: судья в доле?

    В январе 2025 года разразился новый скандал, целый “бенчмарк-гейт”, на этот раз действительно про математику и действительно сомнительный.

    Датасет FrontierMATH позиционируется как новый, сверхсложный математический бенчмарк от Epoch AI, содержащий только новые и неопубликованные задачи. Идея была прекрасной — создать тест, который точно не попал в тренировочные данные ни одной модели, и который содержит задачи хоть и с заранее известными ответами, но максимально близкие к исследовательской математике. Я много раз рассказывал о нём в своих докладах; последний был на CS Space митапе.

    И вот OpenAI демонстрирует свою новую модель o3, которая набирает на FrontierMATH впечатляющие 25% — в то время как другие модели едва дотягивают до 2%. Величайший прорыв в математических рассуждениях? Нууу… в общем да, но не совсем, и со звёздочкой.

    Оказалось, что OpenAI не просто использовала этот бенчмарк — компания профинансировала его создание и имела доступ к задачам! Более того, математики, создававшие задачи для FrontierMATH, даже не знали о связи проекта с OpenAI. Разумеется, представители Epoch AI попытались сгладить ситуацию и объяснили, что они создают специальный “holdout” набор задач, к которому у OpenAI не будет доступа, но всё это звучало очень подозрительно.

    В том, насколько это мутная история, легко убедиться по самым что ни на есть первоисточникам: просто посмотрите на саму статью Glazer et al. (2024) о датасете FrontierMATH. На arXiv, который помнит всё, есть пять версий этой статьи (это нормально, статьи часто дорабатывают). В версиях до четвёртой включительно acknowledgements выглядят вот так:

    А в пятой версии, появившейся 20 декабря 2024 года, мы уже видим OpenAI:

    Критики, разумеется, сочли всю эту ситуацию нечестными манипуляциями и потребовали тщательного аудита результатов. Последующая независимая проверка показала, что o3-mini набирает на тестовом множестве FrontierMATH всего 11%.

    Потом o4-mini показала себя гораздо лучше, и сейчас у датасета FrontierMATH две верхние строчки с огромным отрывом занимают модели OpenAI, да и дальше только Gemini 2.5 Pro может как-то конкурировать:

    Но все до сих пор вспоминают объявление о 25%.

    IMO 2025: хайп превыше всего

    А самая свежая история, ради которой мы сегодня собрались, произошла на днях с Международной математической олимпиадой 2025 года (IMO 2025). Мы только что обсуждали, что экспериментальная модель OpenAI решила 5 из 6 задач и достигла уровня золотой медали. Результат действительно впечатляющий — это огромный прорыв для LLM.

    Вот только опять оказывается, что есть нюанс. По словам инсайдеров, организаторы IMO попросили все AI-компании не красть внимание у детей и подождать неделю после церемонии закрытия, прежде чем объявлять свои результаты:

    Что сделала OpenAI? Объявила результаты сразу после церемонии закрытия, но за неделю до срока, о котором просили.

    Джозеф Майерс, координатор шестой задачи (единственной, которую модель OpenAI не решила), поделился мнением жюри: “Общее мнение жюри и координаторов IMO заключается в том, что это было грубо и неуместно”.

    Более того, OpenAI не была среди компаний, которые сотрудничали с IMO для официального тестирования моделей. То есть, в отличие от результатов Google DeepMind, мы даже не можем быть уверены, что их “золотая медаль” полностью легитимна.

    Deep Think: Google is Not Evil

    И вот для контраста посмотрим, как повела себя команда Google DeepMind в аналогичной ситуации. Их модель Deep Think тоже решила 5 из 6 задач IMO 2025 — точно такой же результат, как у OpenAI. Теперь уже вышел официальный пост об этом.

    Как и у OpenAI, речь идёт не об Alpha Proof 2, а о том, что обычная LLM, экспериментальный вариант Gemini под названием Deep Think, решал задачи на естественном языке:

    Так что в этом смысле анонсы двух компаний полностью эквивалентны. Но есть и важные отличия.

    Во-первых, Google дождалась официальной сертификации результатов IMO, прежде чем делать объявление, из уважения к участникам соревнования. Тханг Луонг из DeepMind так и говорит: “Мы подождали, пока IMO официально подтвердит результаты соревнования, а не выпустили их в выходные”.

    Во-вторых — и это уже куда важнее для нас, пользователей — по словам Луонга, модель, которая участвовала в IMO, “на самом деле очень близка к основной модели Gemini, которую мы предлагаем людям”. То есть это не какая-то сверхсекретная экспериментальная разработка, а почти готовый продукт, в то время как OpenAI заявлял, что до релиза их экспериментальной модели ещё точно не меньше нескольких месяцев.

    В-третьих, интересно, как по-разному выглядят решения задач.

    Вот кусочек её решения от модели OpenAI:

    2. Lemma: n>=4, any n-line cover of P_n must use a side of triangle.

    Call boundary point set of triangle:
    B_n = P_n ∩ (H_n ∪ V_n ∪ D_n): all integer points on 3 sides.
    Count: each side has n lattice points. Three vertices each in two sides, no triple. So |B_n|= n+n+n -3=3n-3.

    Now: L = {ℓ_1,…,ℓ_n} n distinct lines, cover all P_n. Suppose none of ℓ_i coincide with H_n,V_n,D_n.

    Need contradiction for n>=4.

    Geometry: T_n (filled triangle) is convex. Intersect any line ℓ with T_n:
    ℓ∩T_n is empty / point / segment. If ℓ doesn’t contain whole side (that’s assumption), then ℓ∩∂T_n has at most two points (if segment, two endpoints). So: any line not equal to a side contains at most 2 points of boundary of T_n.

    So each ℓ_i contains at most 2 points of B_n. So n lines cover at most 2n boundary points. But must cover all B_n (subset of P_n). Need 2n >= |B_n|=3n-3. For n>=4, 3n-3 >2n (difference n-3>0), impossible. Contradiction. So for n>=4, in any n-line cover of P_n, at least one of three side lines H_n, V_n, D_n is present. Exactly lemma. Good. (that’s main structural lemma)

    So n>=4: any configuration has a boundary side line (non-sunny).

    Now reduction from n to n-1.

    Suppose n>=4, have n-line family L for P_n. Lemma gives side line E in L.

    Remove E, get n-1 remaining lines.

    Need show remaining (after appropriate translation) is configuration for P_{n-1}, same #sunny.

    Three cases:

    1) E = D_n: hyp line x+y=n+1. P_n \ D_n = {integer>=1 with sum<=n} = P_{n-1} exactly. D_n only hits sum=n+1 points, disjoint from P_{n-1}. So remaining n-1 lines alone cover P_{n-1}. Done, no transform.

    2) E=H_n (y=1). Remaining points of P_n besides H_n: y>=2. Mapping down by 1 in y:
    bijection T: (x,y+1) ↔ (x,y), between P_n \ H_n and P_{n-1}. Exactly: if (a,b) in P_{n-1}, (a,b+1) in P_n, y>=2, sum a+b+1<=n+1. Conversely. Take remaining n-1 lines ℓ in L{H_n}, translate downward by vector (0,-1). family L’ size n-1. For any p in P_{n-1}, p+(0,1) is in P_n \ H_n, covered by some ℓ; shift ℓ down, p covered by ℓ’. So L’ covers P_{n-1}. Translation preserves direction -> sunny status same.

    3) E=V_n (x=1), same via shift (-1,0). Exactly same.

    So any n-line cover for P_n (n>=4) -> n-1-line cover for P_{n-1}, same #sunny.

    So iterate: for n>=4, reduce n -> n-1 -> … -> 3. Each step n>=4 (when parameter>=4) lemma applies. So any configuration for P_n (any n>=4) produces configuration for P_3 with same number of sunny lines. So possible k for n>=4 are subset of K_3. Great…

    Прочитать в целом можно, и написано в целом на английском языке, конечно. Но вот кусочек из решения той же задачи от Deep Think:

    Модель от DeepMind пишет гораздо более “человечные” и понятные решения. Почему так, разумеется, непонятно: что вдруг заставило модель OpenAI перейти на этот птичий язык? Да и наверняка можно попросить ту же или другую модель переписать решения от OpenAI более понятно. Но это отчасти подтверждает заявления о более близком релизе.

    Заключение: немного о репутации

    История отношений OpenAI с математическими бенчмарками читается как пример того, как не надо строить репутацию в научном сообществе. Каждый раз компания технически ничего не нарушает, но каждый раз оставляет неприятный осадок.

    Изменение правил игры с MATH датасетом? Формально всё честно. Странный дрейф производительности моделей? Никто никому ничего не обещал. Тайное финансирование FrontierMATH? Ну, они же потом раскрыли информацию. Игнорирование просьбы IMO? Они не были обязаны соблюдать эмбарго, да и технически их никто не просил, потому что они с IMO не сотрудничали.

    Но в совокупности эти истории рисуют не слишком приятный образ OpenAI, и осадочек всё накапливается и накапливается (хотя о чём это я, осадок от OpenAI уже давно высыпается из бокала).

    В итоге получается странно: и в истории с FrontierMATH, и с IMO 2025 OpenAI ведь и правда сделала большие прорывы в решении математических задач. Текущие результаты o4-mini на FrontierMATH никто под сомнение не ставит, да и решения задач IMO, скорее всего, получены честно. Но я абсолютно уверен, что репутация OpenAI от этих историй проиграла, а не выиграла. И зачем, спрашивается, так было делать?

    Как говорится, я решил пятьдесят задач из FrontierMATH, но никто не называет меня “Сэм-Великий-Математик”; я решил пять из шести задач IMO 2025, но никто не называет меня “Сэм-Чемпион-Олимпиад”…

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!