Blog

  • Deep Think и IMO 2025: сложные отношения OpenAI и математики

    Deep Think и IMO 2025: сложные отношения OpenAI и математики

    Главный девиз Google — “Don’t be evil” — почему-то совсем не даётся OpenAI. За что ни возьмутся, какая-то мутная ерунда получается. И хотя на этот раз результаты никто, кажется, под сомнение не ставит, давайте вспомним сложные отношения OpenAI с математикой, обсудим IMO 2025 и восхитимся Deep Think от DeepMind.

    MATH: давайте добавим test в train

    Начну с истории 2023 года, когда OpenAI в своей работе “Let’s Verify Step by Step” решила слегка подкорректировать правила игры. Датасет MATH (Hendrycks et al., 2021) долгое время был золотым стандартом для оценки математических способностей языковых моделей. Исследователи использовали его 7500 тренировочных и 5000 тестовых задач для сравнения своих моделей.

    Что же сделала OpenAI? Они взяли 4500 задач из оригинального тестового набора MATH и… включили их в свой тренировочный датасет PRM800K. Формально всё честно: Lightman et al. открыто об этом написали в статье и не утверждали, что проводят честное сравнение с моделями, не видевшими этот тестовый набор; работа вообще была о process reward models.

    Но фактически это означало конец классического бенчмарка MATH в том виде, в котором он существовал: когда PRM800K стал одним из стандартных обучающих датасетов, стало гораздо сложнее обеспечить чистоту тестовой выборки для исходного MATH. Многие исследователи теперь относятся к результатам на MATH, особенно результатам OpenAI, с большой осторожностью.

    Дрейф моделей: сложные простые числа

    Этот раздел не совсем про математику, но так получилось, что интересные эффекты моделей OpenAI заметили именно на математических тестовых вопросах.

    Летом 2023 года исследователи из Стэнфорда и Беркли обнаружили очень странный эффект (Chen et al., 2023). Они решили проверить, как меняется производительность GPT-4 со временем, и, как говорили когда-то в интернете, “результат убил”.

    Они задавали GPT одну и ту же задачу: “Is 17077 a prime number? Think step by step and then answer [Yes] or [No].” В марте 2023 года GPT-4 давал правильный ответ в 84% случаев, а к июню того же года точность упала до 51.1%! Что самое интересное — GPT-3.5 показал обратную динамику, с 49.6% в марте до 76.2% в июне. И этот эффект устойчиво проявлялся с многими разными вопросами:

    Питер Велиндер из OpenAI попытался объяснить ситуацию: “Мы не делали GPT-4 глупее. Совсем наоборот: мы делаем каждую новую версию умнее предыдущей. Наша текущая гипотеза такова: когда вы больше используете модель, вы начинаете замечать проблемы, которые раньше не видели”.

    Но исследователи-то проводили одинаковые тесты в разное время! Очевидно, они не просто “заметили новые баги” — модель разучилась делать то, что умела раньше.

    Это было первой и самой яркой иллюстрацией того, что ведущие лаборатории часто подменяют модели прямо в production, иногда тихо и незаметно, и далеко не всегда новые модели лучше.

    В целом это, конечно, нормально, хотя не до конца ясно, почему бы не оставлять доступ и к старым версиям моделей, например за деньги по API. Давеча вот была целая инициатива за то, чтобы сохранить Claude 3 Opus; надеюсь, Anthropic прислушается, но это уже другая история.

    FrontierMATH: судья в доле?

    В январе 2025 года разразился новый скандал, целый “бенчмарк-гейт”, на этот раз действительно про математику и действительно сомнительный.

    Датасет FrontierMATH позиционируется как новый, сверхсложный математический бенчмарк от Epoch AI, содержащий только новые и неопубликованные задачи. Идея была прекрасной — создать тест, который точно не попал в тренировочные данные ни одной модели, и который содержит задачи хоть и с заранее известными ответами, но максимально близкие к исследовательской математике. Я много раз рассказывал о нём в своих докладах; последний был на CS Space митапе.

    И вот OpenAI демонстрирует свою новую модель o3, которая набирает на FrontierMATH впечатляющие 25% — в то время как другие модели едва дотягивают до 2%. Величайший прорыв в математических рассуждениях? Нууу… в общем да, но не совсем, и со звёздочкой.

    Оказалось, что OpenAI не просто использовала этот бенчмарк — компания профинансировала его создание и имела доступ к задачам! Более того, математики, создававшие задачи для FrontierMATH, даже не знали о связи проекта с OpenAI. Разумеется, представители Epoch AI попытались сгладить ситуацию и объяснили, что они создают специальный “holdout” набор задач, к которому у OpenAI не будет доступа, но всё это звучало очень подозрительно.

    В том, насколько это мутная история, легко убедиться по самым что ни на есть первоисточникам: просто посмотрите на саму статью Glazer et al. (2024) о датасете FrontierMATH. На arXiv, который помнит всё, есть пять версий этой статьи (это нормально, статьи часто дорабатывают). В версиях до четвёртой включительно acknowledgements выглядят вот так:

    А в пятой версии, появившейся 20 декабря 2024 года, мы уже видим OpenAI:

    Критики, разумеется, сочли всю эту ситуацию нечестными манипуляциями и потребовали тщательного аудита результатов. Последующая независимая проверка показала, что o3-mini набирает на тестовом множестве FrontierMATH всего 11%.

    Потом o4-mini показала себя гораздо лучше, и сейчас у датасета FrontierMATH две верхние строчки с огромным отрывом занимают модели OpenAI, да и дальше только Gemini 2.5 Pro может как-то конкурировать:

    Но все до сих пор вспоминают объявление о 25%.

    IMO 2025: хайп превыше всего

    А самая свежая история, ради которой мы сегодня собрались, произошла на днях с Международной математической олимпиадой 2025 года (IMO 2025). Мы только что обсуждали, что экспериментальная модель OpenAI решила 5 из 6 задач и достигла уровня золотой медали. Результат действительно впечатляющий — это огромный прорыв для LLM.

    Вот только опять оказывается, что есть нюанс. По словам инсайдеров, организаторы IMO попросили все AI-компании не красть внимание у детей и подождать неделю после церемонии закрытия, прежде чем объявлять свои результаты:

    Что сделала OpenAI? Объявила результаты сразу после церемонии закрытия, но за неделю до срока, о котором просили.

    Джозеф Майерс, координатор шестой задачи (единственной, которую модель OpenAI не решила), поделился мнением жюри: “Общее мнение жюри и координаторов IMO заключается в том, что это было грубо и неуместно”.

    Более того, OpenAI не была среди компаний, которые сотрудничали с IMO для официального тестирования моделей. То есть, в отличие от результатов Google DeepMind, мы даже не можем быть уверены, что их “золотая медаль” полностью легитимна.

    Deep Think: Google is Not Evil

    И вот для контраста посмотрим, как повела себя команда Google DeepMind в аналогичной ситуации. Их модель Deep Think тоже решила 5 из 6 задач IMO 2025 — точно такой же результат, как у OpenAI. Теперь уже вышел официальный пост об этом.

    Как и у OpenAI, речь идёт не об Alpha Proof 2, а о том, что обычная LLM, экспериментальный вариант Gemini под названием Deep Think, решал задачи на естественном языке:

    Так что в этом смысле анонсы двух компаний полностью эквивалентны. Но есть и важные отличия.

    Во-первых, Google дождалась официальной сертификации результатов IMO, прежде чем делать объявление, из уважения к участникам соревнования. Тханг Луонг из DeepMind так и говорит: “Мы подождали, пока IMO официально подтвердит результаты соревнования, а не выпустили их в выходные”.

    Во-вторых — и это уже куда важнее для нас, пользователей — по словам Луонга, модель, которая участвовала в IMO, “на самом деле очень близка к основной модели Gemini, которую мы предлагаем людям”. То есть это не какая-то сверхсекретная экспериментальная разработка, а почти готовый продукт, в то время как OpenAI заявлял, что до релиза их экспериментальной модели ещё точно не меньше нескольких месяцев.

    В-третьих, интересно, как по-разному выглядят решения задач.

    Вот кусочек её решения от модели OpenAI:

    2. Lemma: n>=4, any n-line cover of P_n must use a side of triangle.

    Call boundary point set of triangle:
    B_n = P_n ∩ (H_n ∪ V_n ∪ D_n): all integer points on 3 sides.
    Count: each side has n lattice points. Three vertices each in two sides, no triple. So |B_n|= n+n+n -3=3n-3.

    Now: L = {ℓ_1,…,ℓ_n} n distinct lines, cover all P_n. Suppose none of ℓ_i coincide with H_n,V_n,D_n.

    Need contradiction for n>=4.

    Geometry: T_n (filled triangle) is convex. Intersect any line ℓ with T_n:
    ℓ∩T_n is empty / point / segment. If ℓ doesn’t contain whole side (that’s assumption), then ℓ∩∂T_n has at most two points (if segment, two endpoints). So: any line not equal to a side contains at most 2 points of boundary of T_n.

    So each ℓ_i contains at most 2 points of B_n. So n lines cover at most 2n boundary points. But must cover all B_n (subset of P_n). Need 2n >= |B_n|=3n-3. For n>=4, 3n-3 >2n (difference n-3>0), impossible. Contradiction. So for n>=4, in any n-line cover of P_n, at least one of three side lines H_n, V_n, D_n is present. Exactly lemma. Good. (that’s main structural lemma)

    So n>=4: any configuration has a boundary side line (non-sunny).

    Now reduction from n to n-1.

    Suppose n>=4, have n-line family L for P_n. Lemma gives side line E in L.

    Remove E, get n-1 remaining lines.

    Need show remaining (after appropriate translation) is configuration for P_{n-1}, same #sunny.

    Three cases:

    1) E = D_n: hyp line x+y=n+1. P_n \ D_n = {integer>=1 with sum<=n} = P_{n-1} exactly. D_n only hits sum=n+1 points, disjoint from P_{n-1}. So remaining n-1 lines alone cover P_{n-1}. Done, no transform.

    2) E=H_n (y=1). Remaining points of P_n besides H_n: y>=2. Mapping down by 1 in y:
    bijection T: (x,y+1) ↔ (x,y), between P_n \ H_n and P_{n-1}. Exactly: if (a,b) in P_{n-1}, (a,b+1) in P_n, y>=2, sum a+b+1<=n+1. Conversely. Take remaining n-1 lines ℓ in L{H_n}, translate downward by vector (0,-1). family L’ size n-1. For any p in P_{n-1}, p+(0,1) is in P_n \ H_n, covered by some ℓ; shift ℓ down, p covered by ℓ’. So L’ covers P_{n-1}. Translation preserves direction -> sunny status same.

    3) E=V_n (x=1), same via shift (-1,0). Exactly same.

    So any n-line cover for P_n (n>=4) -> n-1-line cover for P_{n-1}, same #sunny.

    So iterate: for n>=4, reduce n -> n-1 -> … -> 3. Each step n>=4 (when parameter>=4) lemma applies. So any configuration for P_n (any n>=4) produces configuration for P_3 with same number of sunny lines. So possible k for n>=4 are subset of K_3. Great…

    Прочитать в целом можно, и написано в целом на английском языке, конечно. Но вот кусочек из решения той же задачи от Deep Think:

    Модель от DeepMind пишет гораздо более “человечные” и понятные решения. Почему так, разумеется, непонятно: что вдруг заставило модель OpenAI перейти на этот птичий язык? Да и наверняка можно попросить ту же или другую модель переписать решения от OpenAI более понятно. Но это отчасти подтверждает заявления о более близком релизе.

    Заключение: немного о репутации

    История отношений OpenAI с математическими бенчмарками читается как пример того, как не надо строить репутацию в научном сообществе. Каждый раз компания технически ничего не нарушает, но каждый раз оставляет неприятный осадок.

    Изменение правил игры с MATH датасетом? Формально всё честно. Странный дрейф производительности моделей? Никто никому ничего не обещал. Тайное финансирование FrontierMATH? Ну, они же потом раскрыли информацию. Игнорирование просьбы IMO? Они не были обязаны соблюдать эмбарго, да и технически их никто не просил, потому что они с IMO не сотрудничали.

    Но в совокупности эти истории рисуют не слишком приятный образ OpenAI, и осадочек всё накапливается и накапливается (хотя о чём это я, осадок от OpenAI уже давно высыпается из бокала).

    В итоге получается странно: и в истории с FrontierMATH, и с IMO 2025 OpenAI ведь и правда сделала большие прорывы в решении математических задач. Текущие результаты o4-mini на FrontierMATH никто под сомнение не ставит, да и решения задач IMO, скорее всего, получены честно. Но я абсолютно уверен, что репутация OpenAI от этих историй проиграла, а не выиграла. И зачем, спрашивается, так было делать?

    Как говорится, я решил пятьдесят задач из FrontierMATH, но никто не называет меня “Сэм-Великий-Математик”; я решил пять из шести задач IMO 2025, но никто не называет меня “Сэм-Чемпион-Олимпиад”…

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?

    Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?

    Совсем недавно я рассказывал об LLM для математики на митапе CS Space, и вот появилась мощная новость на эту тему. Говорят, новая модель от OpenAI, которая ещё не скоро будет опубликована, смогла нарешать на золотую медаль IMO 2025! Но ведь ещё год назад AlphaProof не хватало одного балла до золота IMO 2025, так что же здесь удивительного? Давайте разберёмся по порядку: начнём с того, чем был прошлогодний AlphaProof, а потом перейдём к последней новости.

    Кто же выиграл серебро? AlphaGeometry и AlphaProof

    История AlphaProof началась с модели AlphaGeometry (Trinh et al., 2024), которая совмещала LLM и символьные вычисления в духе DeepMind’овских моделей вроде AlphaTensor. Чтобы решить геометрическую задачу, нужно уметь:

    • выводить все факты об объектах, которые можно увидеть на рисунке;
    • делать новые построения, которые добавят новые объекты, о которых можно повыводить факты.

    Первый пункт здесь в основном чисто технический и формальный, а творчество состоит во втором пункте. Поэтому в AlphaGeometry LLM порождает идеи для новых построений, а symbolic engine выводит из них всё, что можно:

    AlphaGeometry решал геометрические задачи на уровне серебра IMO. Потом появилась AlphaGeometry 2, на модели Gemini получше и на большем синтетическом датасете.

    Ну а потом перешли и к не-геометрическим задачам. В системе AlphaProof (DeepMind, 2024; см. также презентацию) LLM соединяется с Lean, системой для порождения и проверки формальных доказательств (proof assistant). Специально дообученная модель Gemini переводит естественный язык в формальную постановку, а потом RL в стиле AlphaZero обучается искать доказательство в Lean:

    Здесь солвер (solver network) — это модель, которая выбирает следующий “ход” в виде Lean tactic, как AlphaZero. Солвер обучается сначала с учителем на mathlib, большой библиотеке проверенных формальных доказательств, а потом обучением с подкреплением, где Lean проверяет порождённые доказательства.

    Солвер учится доказывать так же, как AlphaZero учится играть в шахматы, это поиск по дереву; а LLM даёт формализацию и новые идеи. По мере решения задач они добавляются в обучение, т.е. сам собой получается curriculum learning от простого к сложному.

    В итоге AlphaProof вместе с AlphaGeometry 2 дошли до уровня серебряной медали на IMO 2024, минус один балл от золота:

    Это направление, конечно же, продолжается и сегодня, и есть масса работ о том, как соединить формальные доказательства с LLM. Наверное, самый громкий недавний релиз — это DeepSeek-Prover-V2 (Ren et al., 30 апреля 2025): LLM, специально дообученная для формальных доказательств в Lean 4:

    Сейчас обычно именно его используют в дальнейших таких исследованиях (например, DREAM от Cao et al., June 20, 2025, или LeanConjecturer от Onda et al., June 27, 2025), но сам по себе DeepSeek-Prover-V2, конечно, никакого золота IMO не выиграет.

    LLM до сих пор: Proofs and Bluffs

    Выходит, AlphaProof — это что-то очень сложное, что нам с вами не запустить. Мне не до конца понятно, почему мы не знаем результатов AlphaProof на FrontierMath и тому подобных более “научных” датасетах, но нам, пользователям, в любом случае интереснее, как работают те LLM, к которым мы можем получить доступ (хотя бы в некотором будущем). Как же “чистые” LLM, без обвязки и дообучения подобно AlphaProof, справляются со сложными олимпиадными задачами?

    В докладе на митапе я остановился на отрицательном результате. В работе под названием “Proof or Bluff” Petrov et al. проверили, как LLM справятся с 2025 USA Math Olympiad, которой точно не было в обучающей выборке. Просили писать полное доказательство и проверяли как людей. Оказалось, что результаты были почти нулевыми, максимум 2 балла из 42 у DeepSeek R1:

    Разумеется, и этот результат в итоге оказался не таким обескураживающим, как кажется. Первая версия “Proof or Bluff” вышла 27 марта 2025 года, а буквально через неделю вышла Gemini 2.5 Pro, и Petrov et al. пришлось срочно обновлять табличку! В версии от 9 апреля Gemini 2.5 Pro решает уже одну задачу совсем хорошо и другую наполовину, 10 баллов из 42:

    А 29 мая появился новый бенчмарк: исследователи из ETH Zurich Balunovic et al. (2025) сделали бенчмарк MathArena, который призван как раз сравнивать LLM на разных математических олимпиадах. Они сравнили o3, o4-mini, Gemini-2.5-Pro, Grok-4 и Deepseek-R1, причём старались делать это по-честному, с максимальной “силой” модели:

    • порождали по 32 ответа для каждой модели и выбирали лучший самой же моделью (best-of-32); это хороший способ улучшить результат, особенно в задачах на доказательство;
    • проверяли полученные решения руками, четырьмя профессиональными судьями, у которых был опыт проверки IMO и других олимпиад.

    В частности, такой эксперимент провели и на IMO 2025. И вот что у них получилось:

    Получился огромный прогресс по сравнению с тем, что было в конце марта: Gemini 2.5 Pro уже набрала довольно много баллов… но это далеко не золото. Пост от создателей бенчмарка так и назывался: “Not Even Bronze“.

    Новая модель OpenAI: золото IMO для “чистой” LLM

    И с этим мы подходим к 18-19 июля 2025 года, когда исследователи из OpenAI объявили, что их новая модель смогла добраться до уровня золота IMO 2025. У нас пока не так много информации: тред Alexander Wei, репозиторий с решениями задач и тред Noam Brown; если честно, мне кажется, что это “пока” ещё надолго, OpenAI ещё очень долго не планируют релиз этой экспериментальной модели.

    И тем не менее кое-какие важные детали мы узнали:

    • это general reasoning LLM, не система вроде AlphaProof или DeepSeek-Prover; иначе говоря, это обычная LLM вроде o3-pro, только лучше, следующая итерация;
    • очевидно, там было много улучшений, но главное, о чём пишут Wei и Brown — это следующий шаг в масштабировании test-time reasoning; современные модели “размышляют” в течение считанных минут подряд (Deep Research не совсем считается, там скорее много небольших размышлений объединены), а эта секретная модель может думать уже в течение пары часов;
    • кстати, о часах — модель участвовала наравне с людьми, в течение двух четырёхчасовых сессий; это тоже важно, потому что, например, AlphaProof в прошлом году решал задачи, кажется, трое суток;
    • оценивали тоже наравне с людьми, три судьи с опытом оценки настоящих IMO; в результате модель набрала 35 баллов из 42, решив пять задач из шести; кстати, если это значит, что 5 из 6 решены на 7 баллов, а шестая никак (Wei не уточняет), то это тоже шаг вперёд от текущих LLM, которые всё время чего-то недоговаривают и набирают частичные баллы, даже если идея правильная.

    Я хотел было обсудить какую-нибудь задачу из IMO 2025 и её решение новой моделью OpenAI… но быстро сдался. Решения выглядят хоть и читаемо в целом, но разбираться в них нелегко; вот типичный кусочек:

    3. Analyze n=3 exactly.

    S := P_3 = {positive ints (a,b), a+b<=4}: 6 points.
    List as:
    A=(1,1), B=(1,2), C=(1,3), D=(2,1), E=(2,2), F=(3,1). Exactly 6.

    First enumerate non-sunny lines’ intersections with S.

    Non-sunny directions: vertical x=const, horizontal y=const, diagonal x+y=const.

    Inside S:
    Verticals: x=1: {A,B,C} (size3), x=2:{D,E} size2, x=3:{F}.
    Horiz: y=1 {A,D,F} size3, y=2 {B,E} size2, y=3 {C}.
    Diagonal: sums:2:{A} ,3:{B,D} size2, 4:{C,E,F} size3.
    So any non-sunny line intersection with S is subset of one of:
    three size3 sets: {A,B,C}; {A,D,F}; {C,E,F};
    three size2: {B,E}; {D,E}; {B,D}. (size1 irrelevant).

    So far.

    Надеюсь, Фёдор Петров, который на митапе рассказывал про LLM и олимпиадные задачи, разберётся. Я готов поверить, что умными людьми уже проверено; достижение в любом случае замечательное.

    На Manifold был на этот счёт prediction market, на котором отметились даже такие люди, как Пол Кристиано и Элиэзер Юдковский. В 2022 году Кристиано писал: “I’d put 4% on “For the 2022, 2023, 2024, or 2025 IMO an AI built before the IMO is able to solve the single hardest problem… Maybe I’ll go 8% on “gets gold” instead of “solves hardest problem”.” Юдковский был более оптимистичен: “My probability is at least 16% [on the IMO grand challenge falling]”.

    Не будем их критиковать: в 2022 предсказать реальную скорость прогресса было очень сложно. Но сейчас линия этого предсказания выглядит вот так:

    Заключение

    Заглавная картинка в посте — намёк на знаменитый мем о сборной США на IMO. Может быть, скоро роботы превзойдут людей и в математических олимпиадах. Но главное, конечно, не в том, чтобы решать олимпиадные задачки. Шахматы не умерли с появлением сверхчеловеческих движков (а скорее набрали популярность), и математические олимпиады как соревнования между людьми не умрут.

    Главное в том, сможет ли этот прогресс превратиться не просто в спортивный успех, а в новые математические результаты. А где математические, там и алгоритмические, а там и пресловутый self-improvement, первые шаги которого мы только что видели в AlphaEvolve.

    И вот это уже очень, очень интересный вопрос.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Немного о Париже

    Немного о Париже

    Это была целая пятничная неделя, так что вместо пятничного поста просто ещё пара зарисовок.

    1.
    В понедельник День взятия Бастилии продолжился тем, что мы пошли смотреть праздничный салют. Всё прошло чрезвычайно удачно: пришли за три часа, ровно в тот момент, когда полиция только начала запускать за оцепление на Трокадеро. Там мы обнаружили интересных русских людей — наверное, нехорошо выкладывать фото, но один из них был просто вылитый Джон Малкович, вплоть до мимики и жестикуляции — и француза, который прекрасно говорил по-русски. С ними мы эти три часа и провели на самом лучшем месте для обзора.

    А сам салют был просто невероятный. Не пожалел, что столько ждал, и закрыл для себя эту тему, надеюсь, на всю жизнь. Организаторы объединили обычный фейерверк с дронами, которыми можно рисовать в небе чёткие картинки, и вышло действительно очень круто. В своём телеграм-канале выложил видео, посмотрите.

    2.
    Побывал в Музее Средневековья в “отеле Клюни” — остался не то чтобы разочарован, но как-то… ну да, пожалуй, разочарован. Хотя не уверен, чего я ожидал. Из забавного могу разве что показать, как там раскладывают мелкие украшения на соответствующие карты Magic: the Gathering.

    В Орсэ тоже сходил, на всё посмотрел, но это было уже в последний день, я был невыспавшийся и ничего особенно уже не хотел, и как-то это всё оставило несколько смазанное впечатление. Впрочем, импрессионисты, кажется, так и задумывали. При случае попробую ещё.

    3.
    И ещё две мини-истории про exceeding expectations.

    Вчера на входе в гейт (уже на выходе в автобус) мой посадочный вдруг загорелся красным, и меня попросили отойти в сторонку. Поскольку я летел лоукостером FlyOne по самому дешёвому тарифу, я уже успел заготовить глаза кота из “Шрека” и мысленно попрощаться с чемоданом. Но оказалось, что милейшая женщина поменяла мне место в посадочном на гораздо лучшее (кажется, с 19B на 10C) вот с таким объяснением:

    — I changed your seat because there was someone who doesn’t smell too good next to you!

    А сегодня утром в гостеприимном Ереване заказал в кафе сырники со сгущёнкой и думал, что это будут сырники со сгущёнкой. А принесли то, что на последнем фото.

    Чего и вам желаю.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Немного о Лувре

    Немного о Лувре

    Вчера был мощный день взятия Бастилии. Сначала я полдня гулял по Лувру — очень сильное впечатление, конечно; отвлекусь пока от AI и расскажу вам немножко из того, что мне показалось интересным.

    Во-первых, в Лувре, конечно, очень странные ребята развеску делают. Я нашёл там полный зал Тицианов, Тинторетто и Веронезе, десятки картин титанов Возрождения. Но к ним толком даже не подойти, потому что выглядит этот зал вот так:

    При этом в широком свободном коридоре висит, конечно, Рафаэль и другие картины Леонардо, но вместе с ним и куча имён второго-третьего ряда, которых было бы логично туда к “Моне Лизе” и отправить.

    Во-вторых, интересно было увидеть, что вызывает интерес, а что не очень. Конечно, у Венеры Милосской небольшая толпа:

    С Никой Самофракийской тоже все фотографируются, она там на входе стоит:

    Но вот, например, у “Свободы на баррикадах” народ толпится:

    А висящий в том же зале через одну картину “Плот ‘Медузы’” никому не нужен:

    И совсем уж я засомневался, когда встретил висящие буквально рядом “Смерть Марата” и “Клятву Горациев”, которые тоже вообще никакого интереса у публики не вызывали!

    Может, это именно в российском (или ЧГКшном?) восприятии что-то исказилось?..

    Потом я зашёл в какую-то… простите, какой-то дальний угол этого мира искусства, сначала по узкой винтовой лестнице, потом ещё через десяток залов, потолки стали гораздо ниже, я вообще не понимал где я… но вдруг обнаружил там Моне, Дега, Сезанна, Ренуара, Писарро и Сислея, которые тоже абсолютно никому были не нужны:

    Зато встретил старых знакомых:

    И вскоре после этого увидел, что бывает, если слишком долго выдавать льву зарплату ветками (превед!):

    А у коня маршала Мюрата в глазах вся боль лошадиного народа:

    В зале древнегреческого искусства был очень, очень странный потолок, вообще не подходящий ко всему остальному. Я ему немного поудивлялся, а потом обнаружил табличку со знакомым именем:

    Правда, в соседнем зале потолок оказался ещё круче:

    В Лувре, конечно, далеко не только картины. В том числе я побывал на двух необычных выставках с крутой идеей. В отделе декоративного искусства Givenchy, YSL, Dior и другие показывают свои работы в интерьерах разных поздних Людовиков:

    А ещё в паре залов выставлены рамы от картин, которые были утеряны или проданы:

    Поразился тому, какие на самом деле маленькие клинописные таблички; вот здесь, насколько я смог понять из подписи на французском, учат делить в столбик:

    А это какой-то аккадский правитель; по-моему, симпатяга:

    В общем, Лувр крутой, будьте как Лувр!

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Inkle Studios: Overboard! + Expelled!

    Inkle Studios: Overboard! + Expelled!

    Мини-серия от Inkle Studios — это игры с совершенно блестящей задумкой, которая переворачивает детективный жанр с ног на голову, да ещё и добавляет новых механик. Вместо того чтобы раскрывать преступление, вы сами преступник (или хотя бы обвиняемый), который пытается сделать так, чтобы ему это сошло с рук. Смысл механики в том, что игру надо проходить много раз подряд, и каждое прохождение (занимающее считанные минуты) — это как бы один “день” расследования, где вы методом проб и ошибок учитесь манипулировать другими пассажирами, подбрасывать улики и строить алиби. “День сурка” для любителей детективов, кажется отличной задумкой.

    Overboard!

    Но первая игра, где вы играете за женщину, выбросившую своего мужа за борт роскошного круизного лайнера в 1935 году, честно говоря, не очень мне понравилась. Хотя диалоги остроумные, персонажи прописаны с любовью, а механика постепенного изучения того, как “правильно” совершить идеальное преступление, действительно затягивает, на деле почему-то играть было довольно скучно. Из прохождения в прохождение почти всё повторяется, и надо перепройти всё для того, чтобы попробовать другой вариант в какой-нибудь мелочи; этим недостатком игра напоминает Twelve Minutes, хотя там с этим было ещё хуже. Так что когда через полтора часа я получил одну из условно-хороших концовок, продолжать не было особого желания.

    Expelled!

    Разработчики, видимо, сделали выводы, потому что вторая игра, про девочку в британской женской школе начала 1920-х, сделана ровно на той же идее и тех же механиках, но играется куда лучше. Здесь богаче история, каждое прохождение ты открываешь что-то действительно новое, очередные цели открывают следующие, более амбициозные. Тут спойлерить ничего не хочется — просто поиграйте и раскройте все тайны самостоятельно. Длина тоже больше, чем в Overboard!, но три с половиной часа здесь ощущались насыщеннее, чем те полтора. Надеюсь, Inkle продолжит в том же духе.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • Nomada Studio: Gris + Neva

    Nomada Studio: Gris + Neva

    Сегодня рассматриваем две игры от испанской Nomada Studio, основанной в 2017 году выходцами из Ubisoft: Gris и Neva. В Gris я играл давно, а Neva прошёл только что.

    Gris

    Об этой игре мало что можно сказать такого, чего бы вы ещё не знали: она красивая, это казуальный платформер, она красивая, есть какие-то аллюзии на проработку депрессии (хотя я бы вообще этого не понял, если бы не прочитал об этом в обзорах), да, и я не забыл сказать, что она очень красивая? Игра на 3-4 часа, геймплей простой, но не успевающий наскучить, и акварельный стиль действительно отличный, так что просто поиграйте, если ещё не.

    Neva

    Вторая игра от той же команды, которая сделала Gris. Де-факто это продолжение, расширенная и углубленная версия Gris, хотя сюжет и основной смысл происходящего совсем другие. Но стиль очень похож, главная героиня тоже очень похожа, и это по-прежнему нехитрый платформер без особого игрового содержания. Хотя к чистому платформингу добавились сражения, и хотя я действительно иногда умирал по ходу игры, происходящее вообще ни разу не ощущалось как челлендж, сложность на протяжении игры почти не прогрессирует. В общем, это по-прежнему совсем не про геймплей.

    Главный посыл игры теперь не про депрессию, а про экологию. А сюжет развивается через взаимоотношения с волчицей по имени Нева, которую мы выращиваем из маленького щеночка и с которой дружим до самой (о боже, спойлер) её смерти в конце игры. Всё то, что я говорил о красоте Gris, сюда относится в ровно той же степени: очень красивый стиль, ни одного слова, кроме “Нева” и ещё одного, которое уж не буду спойлерить. И опять 3-4 часа на всю игру.

    What’s not to like, казалось бы, и в Gris, и тем более в Neva. И можно было бы написать про “медитативные, художественные игры-переживания, где важнее не механики, а атмосфера и эмоциональное воздействие”. Но всё-таки как-то это не мой жанр. Когда нет слов, для меня ощущается так, как будто нет и сюжета; я не против интерактивной анимации и люблю симуляторы ходьбы, но тут мне чего-то не хватает.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • Люди против роботов: пьеса в трёх модальностях

    Люди против роботов: пьеса в трёх модальностях

    Митап “LLM в математике и алгоритмах” прошёл 5 июля 2025 года, и прошёл категорически успешно. Напишу о нём, когда появятся хорошие фотографии, а сейчас расскажу вам о квизе, который я для митапа подготовил и провёл.

    Идея была в том, чтобы сделать такой квиз, на котором LLM смогут соревноваться с людьми, и ни у людей, ни у “роботов” не будет заведомого преимущества. Про один из туров — обычное ЧГК из базы — у меня особых сомнений не было: хотя я ещё в октябре 2024 года заметил, что рассуждающие LLM могут играть в ЧГК, тут пока несложно найти вопросы, на которых заведомого преимущества не будет. Например, у всех LLM сложно с игрой в буквы, потому что токены с буквами не сходятся (да, считать r в strawberry тоже сложно именно по этой причине), а если это ещё и по-русски происходит, то вообще, скорее всего, до свидания.

    Но хотелось и как-то разнообразить программу, например сделать туры с разными модальностями. Это бы тоже могло оказаться сложным или хотя бы интересным для LLM. Спросил об этом Claude… и, конечно, тут же получил прекрасные идеи. Вот буквально под номерами 1 и 2 шли идеи, которые в итоге и попали в квиз:

    Так что для второго тура я подобрал несколько интересных фотографий рукописей великих математиков. Получилось, кажется, действительно интересное задание; вот как, например, Гротендик иллюстрировал теорему Римана-Роха:

    А со звуком опять попросил Claude написать код, который этот звук сгенерирует — и он, конечно же, без проблем справился. Правда, в итоге выяснилось, что эту конкретную идею всё-таки Claude не сам придумал, а взял из “Sound of Sorting” Тимо Бингманна, так что звуки алгоритмов поиска я сгенерировал, а для алгоритмов сортировки взял из готового видео.

    Квиз мы больше нигде играть не будем, так что вот, выкладываю финальную презентацию:

    Квиз против LLM — LLM в математике и алгоритмах — 5 июля 2025 года

    И вот результаты (ссылка на табличку):

    Давайте немного их проанализируем. Как и ожидалось, LLM было сложно со звуком. Claude просто не принимает звук на вход, так что из раунда был дисквалифицирован. А вот o3-pro и o4-mini-high, казалось бы, всё поняли, но почему-то ответов правильных дали мало. Вот как o3-pro идеально разложил аргументы про алгоритмы сортировки (аудио можно послушать в видео)… но почему-то все перепутал, я даже засомневался, не было ли какой ошибки в названиях файлов:

    С картинками LLM справились почти идеально, в этом они куда лучше людей. Только задание про первую языковую модель Андрея Андреевича Маркова вызвало серьёзные проблемы у LLM — справился только o3-pro, а остальные писали что-то про криптографию:

    А вот с ЧГК получилось, как я и ожидал, по-разному. Например, вот первый вопрос:

    Алгоритм Дейкстры позволяет искать в графе кратчайшие пути, начинающиеся в стартовой вершине. Есть вариант его запуска из стартовой и конечной вершин одновременно. Юрий Натаров предложил для этой модификации в название алгоритма добавить четыре буквы. Какие?

    Здесь я ожидал, что с буквами будут проблемы, и действительно, из LLM не взял никто; правда, проблемы оказались скорее с юмором и пониманием сути ЧГК, потому что почти все модели ответили Bidi от bidirectional, что логично, но совершенно не смешно и не повод для вопроса:

    Лучше всех здесь снова выступил o3-pro — его идея не соответствует форме вопроса, но это всё равно гениально:

    Другая забавная версия получилась на вопросе 4:

    Альберту Эйнштейну приписывают фразу: “Не знаю, чем будут воевать в Третьей мировой войне, а в Четвёртой — камнями и палками”. Андрей Курпатов полагает, что “предупредительный камень” перед Четвёртой мировой был брошен уже в 2016 году. Так он характеризует событие, участники которого… делали что?

    Большинство LLM ответили правильно, но Claude нашёл возможность проявить свою гражданскую позицию:

    Вопрос 5 тоже задумывался как безнадёжное для LLM задание “пошути как автор пирожка, да ещё и не зная, что это пирожок”:

    В одном шутливом произведении математик бродит по НЕМУ, удивляясь элементарности задач. “Здесь минус сорок, например”, — ворчит математик. Назовите ЕГО одним словом.

    И действительно, ни одна LLM не взяла, но версии породили забавные:

    А в целом вышло так, что только o3-pro по сумме трёх раундов победила всех человеков. Да и то скорее за счёт того, что картинки рукописей o3-pro скорее всего подгугливала, и запретить ей это не получалось. Но очевидно, что этот фронтир тоже потихоньку движется вперёд; надеюсь, что LLM скоро всё-таки смогут и юмор понимать, и буквы переставлять, и вообще станут полноценными ЧГК-помощниками и тренерами.

    В этом уж точно нет ничего апокалиптического, сплошные плюсы.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Harold Halibut

    Harold Halibut

    Ужасно милая игра, very, very cute. Первое и главное — это, конечно, стиль. Студия Slow Bros, оправдывая своё название, делала её двенадцать лет: сначала собирались сделать прямо stop motion анимацию, но потом всё-таки оцифровали свои куклы. Но все куклы и обстановка реально были сделаны физически! В итоге получился уникальный художественный стиль, который я по задумке, объёму работы и результату могу сравнить разве что с The Neverhood.

    Во-вторых, история, точнее даже не столько история, сколько персонажи. Заглавный персонаж, Гарольд, — разнорабочий на космической станции, который всем помогает делать то, на что им жалко тратить время. Ему уже, кажется, под тридцать, он совсем не глуп и часто задаётся вопросом о том, неужели это и есть его место в жизни и предназначение. И все остальные персонажи тоже хорошо прописаны, колоритны и снабжены отличными полностью озвученными диалогами.

    Всё это происходит на космической станции, которая улетела с Земли, потому что на Земле становилось невозможно жить. Этот ковчег человечества так и не нашёл полностью пригодной для жизни планеты и в итоге застрял на одной из планет под водой с неочевидными шансами выбраться. Но тем временем на Земле всё наладилось, так что все глобальные события в игре тоже поднимают ту же тему бессмысленности жизни. А дальше эта тема развивается и приходит к кульминации через новые твисты, которые я спойлерить не буду.

    Минусов здесь два. Во-первых, всё очень медленно. Показательно, что игра даже не подсказывает, где там кнопка бега; она есть, но её всё равно недостаточно. Ты всё время бегаешь туда-сюда и смотришь непропускаемые анимации перехода между локациями (поездки по их Tube). Во-вторых, совсем нет геймплея, причём по неясным причинам. По форме это квест, там есть задания, и есть даже мини-игры, которые очень приятно оформлены; авторам ничего бы не стоило сделать настоящий разнообразный и интересный квест. Но абсолютно все задания и все мини-игры совершенно тривиальны; не в смысле “загадки для детей”, а в смысле буквального отсутствия загадок: приди в указанное место, поговори с человеком, rinse, repeat. Даже мини-игры тоже такие: человек тебе говорит, какие три кнопки надо нажать, а потом… ты их нажимаешь!

    Но эти минусы не мешают насладиться игрой. Просто понимайте, что подписываетесь на медленный и расслабленный симулятор ходьбы, и наслаждайтесь редкой красоты арт-стилем, ламповой кукольной анимацией, интересным сюжетом и прекрасной озвучкой.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура“: присоединяйтесь!

  • The Operator

    The Operator

    Маленькая, на четыре часа, но весьма интересная история. Вы становитесь “оператором” федерального бюро FDI (видимо, комбинация FBI и CIA), то есть ваша задача — помогать агентам FDI с поиском информации, “пробивать по базам”, пытаться совмещать разные данные и так далее.

    Что понравилось — в первую очередь сама история. Хотя каждый персонаж здесь максимально клиширован (опытный полевой агент-техасец, начинающий агент-девушка, взламывающий всё на свете кулхацкер и т.д.), в сюжете есть пара крутых твистов, которые я не буду спойлерить. Следить за развитием событий было интересно.

    Что не понравилось — то, что хотя игра пытается создать впечатление игрового процесса, по сути ты тут именно что следишь за развитием событий. Загадки тривиальные, плюс тебе всегда рад подсказать шеф, никаких выборов ты ни в какой момент не делаешь, отказаться от кое-каких “заманчивых предложений” на самом деле нельзя, и вся история едет по рельсам к интересной, но единственной развязке. Но в целом безусловно рекомендую, игра точно не успевает наскучить.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура“: присоединяйтесь!

  • The Illusion of The Illusion of The Illusion of Thinking

    The Illusion of The Illusion of The Illusion of Thinking

    Это не просто кликбейтное название поста с мета-юмором, а реальное название препринта на arXiv, вышедшего 26 июня 2025 года. Очевидно, это была уже как минимум третья итерация какого-то спора – но в чём был спор и о чём вообще речь? Давайте разберёмся.

    The Illusion of Thinking

    История началась 7 июня, когда исследователи из Apple Shojaee et al. опубликовали статью с громким названием «Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач». Уже само название звучало очень громко, и результаты заявлялись интересные — неудивительно, что статья вызвала большой ажиотаж.

    Методология исследования выглядела элегантно. Вместо стандартных математических тестов, которые могут быть «загрязнены» попаданием решений в обучающие выборки, учёные обратились к классическим головоломкам из информатики: ханойская башня, задачам о переправе через реку, Blocks World и т.д. Задумка была в том, чтобы плавно наращивать сложность, сохраняя логическую структуру. Например, в задаче о ханойской башне нужно было выписать последовательность ходов:

    Результаты оказались обескураживающими. Исследователи выявили три режима работы моделей:

    • при низкой сложности обычные модели неожиданно обходили рассуждающие модели;
    • при средней сложности дополнительное время на обдумывание в продвинутых моделях давало некоторое преимущество; 
    • но при высокой сложности все модели терпели полный крах.

    Самое интересное (по мнению Shojaee et al.) — в том, что модели словно сдавались, не дойдя до предела. Вместо того чтобы попытаться что-то сделать со сложной задачей, модель заранее признавала поражение:

    Более того, исследователи попробовали добавить в промпт буквально описание алгоритма, по которому решаются все эти задачи, и это моделям никак не помогло, результаты не изменились.

    Что же, получается, не нужны рассуждающие модели? Не совсем…

    The Illusion of the Illusion of Thinking

    Реакция сообщества была предсказуемой: скептики торжествовали, энтузиасты искали изъяны в методологии Shojaee et al. И очень быстро нашли! Разных критических комментариев было много, но давайте разберём только самый знаменитый из них.

    10 июня на arXiv появилась статья «The Illusion of the Illusion of Thinking» (Opus, Lawsen, June 10, 2025), первым автором которой значился… C. Opus из Anthropic. Та самая рассуждающая модель, которую только что обвинили в неспособности мыслить, выступила первым автором критического разбора этого обвинения. Вероятно, это нарушило какие-то правила arXiv, так что теперь авторство и название уже другие, но arXiv всегда помнит первую версию.

    Автор-человек, Alex Lawsen из Open Philanthropy, позже признался, что всё началось как шутка. Из поста «When Your Joke Paper Goes Viral»: «Я подумал, что будет забавно написать ответную статью в соавторстве с Claude Opus. Изложил замеченные проблемы, дал их Claude, немного поработали вместе… собрал pdf да и поделился в Slack с друзьями».

    Но шутки здесь оказалась только небольшая доля. Claude и Лоусен обнаружили в исследовании Apple три весьма критических изъяна.

    Во-первых, модели там, где исследователи фиксировали «провал» в решении ханойских башен, чаще всего модели всего-навсего упирались в лимит токенов. Представьте, что вам дают решить задачу на умножение тысячезначных чисел и один небольшой листочек бумаги. Модели буквально писали в своих ответах: «Паттерн продолжается, но я остановлюсь, чтобы сэкономить токены» — а автоматическая система оценки засчитывала это как неудачу.

    Вторая проблема была ещё более, гм, конфузной: задачи о переправе через реку для N ≥ 6 были математически неразрешимы из-за недостаточной вместимости лодки! Как выразились Claude и Лоусен, это «всё равно что штрафовать SAT-солвер за ответ “unsat” на неразрешимой формуле».

    Ну и в-третьих, разумеется, когда вместо перечисления всех ходов модели попросили написать алгоритм решения, все они справились блестяще. Модели прекрасно знают, как решать Ханойские башни — но их заставляли выписывать 32767 ходов (для N=15) вместо демонстрации понимания принципа, а на это их «блокнотика» уже не хватало. Разумеется, именно поэтому алгоритм им и не помогал: модели прекрасно знают алгоритм для решения ханойских башен и сами, им не нужна в этом помощь.

    The Illusion в кубе: реакции на реакцию

    Реакция AI-сообщества и на статью, и на опровержение, написанное вместе с Claude, была неоднозначной. Многие, включая меня, соглашаются с критическими комментариями. Некоторые решили занять сторону Shojaee et al. и критиковать критику. И действительно, текст Claude и Лоусена содержал некоторые довольно очевидные ошибки (см., например, здесь).

    Но всякий раз, когда люди пытались защитить оригинальную статью, а не искать недостатки в Opus, Lawsen (2025), они терпели неудачу. Как яркий пример я выделю пост Гэри Маркуса, в котором перечислены несколько аргументов против опровержений… но на их реальное содержание не даётся никакого существенного ответа. Более того, настоящая критика там смешивается с очевидными «соломенными чучелами» вроде «главный автор статьи был стажером» — может, Маркус и нашёл такой твит на просторах сети X, но разбирать этот «аргумент» наравне с аргументом «от LLM требовалось решать нерешаемые задачи», мягко скажем, некорректно. Гэри Маркус пошёл и ещё дальше: он даже опубликовал статью для The Guardian под названием «When billion-dollar AIs break down over puzzles a child can do, it’s time to rethink the hype», что, конечно же, породило свою собственную мини-волну хайпа, но это уже другая история.

    Но я обещал третью производную. 16 июня вышла работа «The Illusion of the Illusion of the Illusion of Thinking», на этот раз в соавторстве G. Pro и V. Dantas. Кажется, потихоньку рождается новая академическая традиция…

    Этот, уже третичный, анализ утверждает, что, хотя Claude и Лоусен действительно нашли контраргументы, которые сводят на нет самые серьёзные утверждения исходной статьи, всё же интересно было бы подробнее изучить природу ограничений рассуждающих моделей. Модель знает алгоритм и легко может записать его в виде кода, но действительно не способна без ошибок записать 32767 ходов подряд, нужных для решения ханойской башни с 15 дисками, даже при неограниченном бюджете токенов. Это тоже может быть интересным выводом из исследования.

    Заключение

    Конечно, у работы Shojaee et al. (2025) есть неустранимые недостатки. Наши методы оценки должны быть корректными и соответствовать системам, которые мы пытаемся оценить. Разумеется, стоит проверить, действительно ли тестовые головоломки имеют решения, прежде чем заявлять, что AI-модели не могут их решить. Но указывает ли эта работа на какие-то реальные ограничения, которые говорят нам что-то новое о современных AI-системах? Есть ли здесь какие-то уроки, которые можно извлечь?

    Здесь я, пожалуй, просто порекомендую пост Лоуренса Чана. Он помещает все это в контекст давних дискуссий об ограничениях систем ИИ и нейронных сетей в частности, от книги Минского и Пейперта, критикующей перцептроны, до аргументов из вычислительной сложности (Chiang et al., 2023), набора данных ARC-AGI и гораздо более простого аргумента в духе Shojaee et al. (2025) о том, что LLM не могут умножать 15-значные числа

    А вот motte-and-bailey мем от Чена, который кратко объясняет, почему (интерпретация Гэри Маркуса) статьи Shojaee et al. (2025) неверна:

    В общем, на выходе ничего потрясающего основы из этой статьи, конечно, не получилось. Рассуждающие модели всё так же работают, это даже не то чтобы хороший пример jagged frontier возможностей LLM, который действительно существует. Но мне кажется, что случай интересный: во-первых, он породил интересную дискуссию, а во-вторых, в этой дискуссии уже открытым текстом слышен голос языковых моделей. Кажется, и академический мир уже не будет прежним…

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!