Author: snikolenko

  • Не выключайте прослушку: CoT и интерпретируемость

    Не выключайте прослушку: CoT и интерпретируемость

    В июле 2025 года вышла важная работа о безопасности AI, в которой больше 40 авторов, причём спектр аффилиаций очень широкий: OpenAI, Anthropic, DeepMind, METR, Redwood Research, Meta, UK AI Security Institute, Apollo Research… Среди авторов — легенда глубокого обучения Йошуа Бенджи, Войцех Заремба, Даниэль Кокотайло, знаменитые “AI-безопасники” Нил Нанда, Анка Драган, Дэн Хендрикс, Виктория Краковна, среди “expert endorsers” — Джеффри Хинтон, Сэм Боумэн, Джон Шульман и Илья Суцкевер… На чём же все они смогли единогласно сойтись?

    Что такое CoT и почему это важно

    Chain of Thought (CoT, цепочки рассуждений) — это способность языковых моделей “думать вслух”, последовательно излагая свои рассуждения на естественном языке перед тем, как дать финальный ответ. Если раньше модели вроде ChatGPT просто порождали текст слово за словом, то новое поколение рассуждающих моделей (reasoning models), начиная с OpenAI o1 и далее везде, специально обучается проводить расширенные рассуждения в текстовом виде. Грубо говоря, CoT — это листочек для записей, который дают моделям, чтобы они записывали промежуточные шаги и гипотезы, которые не обязательно войдут в окончательный ответ для пользователя.

    Весь смысл статьи “Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety” сводится к тому, чтобы сказать разработчикам лучших LLM в мире: не отказывайтесь от простого советского человекочитаемого CoT! Почему этот вопрос вдруг стал актуальным, почему человекочитаемый CoT — это так важно, и что может прийти ему на смену?

    Немного об интерпретируемости

    По мере роста возможностей AI-систем растут и связанные с ними риски. Одна из ключевых проблем безопасности — непрозрачность того, как именно модели принимают решения. Мы видим входные данные и результат, но процесс между ними остаётся “чёрным ящиком”, теми самыми “giant inscrutable matrices”, о которых в своё время любил рассуждать Элиэзер Юдковский. И чем больше у модели возможностей, тем больше потенциальный негативный эффект от неправильных её решений. Чем ты сильнее, тем больше ты можешь сломать; и, конечно, сейчас уже есть о чём тревожиться, ведь речь идёт о системах, способных на сложное планирование, написание кода или принятие важных решений.

    Поэтому одно из центральных направлений AI safety — это как раз интерпретируемость (interpretability). Я недавно писал об этом большой пост, а Дарио Амодеи — эссе “The Urgency of Interpretability“; интересующимся рекомендую как минимум второе, но буду рад, если прочитаете и первое.

    Традиционные подходы к интерпретируемости AI, в частности механистическая интерпретируемость (mechanistic interpretability), которая пытается понять, как работают нейронные сети на уровне отдельных нейронов и небольших схем, из них составленных (её как раз активно развивает Anthropic, а я подробно обсуждаю в том посте), довольно быстро прогрессируют в последнее время. Это как раз то направление, из которого год назад получился “Golden Gate Claude“:

    Но всё-таки успехи там далеко не полные, мы можем иногда кое-что заметить, но до полного понимания того, как большая нейронная сеть принимает решения, нам ещё очень далеко.

    Как CoT помогает безопасности AI

    И вот появляется chain-of-thought “блокнотик для записей”, который даёт максимально прямой путь: если модель “думает” на человеческом языке, мы можем буквально читать её мысли! И оказывается, что эти мысли пока что действительно правдивы, и мы действительно видим, что модель думает, даже в тех случаях, когда она потом решает нас обмануть!

    Авторы статьи утверждают (и это в целом бесспорное утвеждение), что мониторинг CoT представляет собой уникальную возможность для обеспечения безопасности AI-систем. Они приводят немало убедительных примеров.

    Вот Meincke et al. (2024) рассказывают о том, что модели уже способны на in-context scheming (преследовать скрытые цели, не признаваясь в этом), но CoT в этой работе всегда всё выдаёт:

    А Baker et al. (2025) написали целую статью про CoT monitoring, и там тоже постоянно встречаются примеры, когда модель просто честно думает, что собирается делать, даже если в итоге финальные действия выглядят безобидно:

    Кажется, что это восхитительная возможность, которой надо пользоваться как можно больше.

    Почему CoT может испортиться

    Однако эта возможность хрупка. Korbak et al. (2025) предупреждают о нескольких факторах, которые могут её разрушить.

    • Язык может стать непонятным из-за использования RL. При масштабировании обучения с подкреплением модели могут начать использовать всё менее понятные человеку “языки” для своих рассуждений. Это давно известный эффект; тот же первый автор ещё в 2022 году написал статью о том, что если дообучать обычную LLM (тогда рассуждающих и вовсе ещё не было) с наградами на основе исходов, а не текстов, то язык становится всё менее читаемым (Korbak et al., 2022).
    • Оптимизация CoT, и прямая, и непрямая, портит его. Попытки сделать рассуждения короче или “безопаснее” могут привести к тому, что они перестанут отражать реальный процесс мышления модели. Здесь главные потенциальные виновники — варианты process reward models (моделей, оценивающих путь к решению в RL, а не только ответ), которые будут следить за тем, чтобы LLM не совершали “мыслепреступлений”; результатом этого, разумеется, может стать то, что модели просто не будут думать лишнего в открытом виде, а нужную информацию передадут как-нибудь иначе. Такие примеры уже известны, и даже непрямая оптимизация вроде “давайте покажем CoT людям, которые оценивают результат в RLHF, и это повлияет на их оценки” тоже может привести к обфускации CoT (Baker et al., 2025).
    • Рассуждения в латентном пространстве не порождают CoT. Модели, способные проводить рассуждения в латентном пространстве без вербализации, могут полностью обойти необходимость в понятных человеку записях в “блокнотике”. Это направление сейчас весьма активно развивается, кстати (Hao et al., 2024; Geiping et al., 2025).

    Что же делать?

    Korbak et al. (2025) формулируют несколько конкретных рекомендаций, к которым лично я могу только присоединиться:

    • Разработать эффективные метрики для того, насколько возможно следить за CoT, то есть создать стандартизированные тесты для оценки того, насколько цепочки рассуждений действительно отражают процесс “мышления” модели.
    • Публиковать результаты оценок — включать информацию о возможностях мониторинга в технические отчёты о моделях.
    • Учитывать эту возможность при принятии решений — рассматривать способность к мониторингу CoT как важный фактор безопасности наряду с другими метриками.
    • При разработке разных методов, связанных с рассуждениями в LLM, изучать, как различные методы обучения влияют на понятность рассуждений.

    Кстати, тут есть и ещё одно оптимистическое наблюдение: в реальности не всегда обязательно, чтобы мониторинг срабатывал в 100 или 99% случаев, даже когда цена ошибки велика. Было бы достаточно, если бы мониторинг можно было перезапускать так, чтобы ошибки не повторялись, а желательно не слишком коррелировали друг с другом — и тогда, понятное дело, любая константная вероятность обнаружения ошибки быстро станет очень близка к единице. В контексте LLM-агентов Bhatt et al. (2025) недавно написали об этом целую статью под названием “Ctrl-Z: Controlling AI Agents via Resampling”.

    Философские размышления и выводы

    Ситуация с CoT напоминает классическую проблему философии сознания: можем ли мы доверять тому, что кто-то говорит о своих мыслях? В случае с AI-моделями эта проблема усугубляется тем, что сами “мысли” являются результатом оптимизации. Модель может научиться порождать правдоподобные, но вводящие в заблуждение объяснения — и очень важно, чтобы мы никоим образом не пытались это поощрять.

    Есть и ещё один фундаментальный вопрос: является ли человеческий язык необходимым инструментом для сложных рассуждений или просто удобным промежуточным представлением? Скорее всего, конечно, второе, и для того, чтобы мониторинг CoT мог стать долгосрочным решением для AI-безопасности, нам нужно приложить нетривиальные усилия. Иначе “мысли” LLM быстро станут настолько же непостижимыми, как и их внутренние активации.

    Авторы честно признают ограничения своего подхода: CoT-мониторинг не панацея, и его следует использовать только как дополнительный уровень защиты. Тем не менее, пока у нас есть эта возможность заглянуть в “мысли” LLM, было бы неразумно её игнорировать. И хочется продолжать изучать, развивать и использовать мониторинг цепочек рассуждений, пока это окно в мышление LLM остаётся открытым. Ведь оно может закрыться быстрее, чем мы думаем.

    Сергей Николенко

  • Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно

    Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно

    AI-модели растут, “горький урок” и законы масштабирования всё ещё работают, но растущие вычислительные требования становятся всё более неподъёмными даже для гигантов рынка. Один из ключевых вопросов современного AI — как сделать то же самое эффективнее. В этом посте я расскажу о новом подходе, который очень элегантно сочетает сразу несколько известных идей и кажется весьма перспективным.

    Три пути к эффективности

    Исследователи из KAIST и Google Bae et al. (2025) представили новую идею под названием Mixture-of-Recursions (MoR, смесь рекурсий). Чтобы понять, что она делает, давайте сначала вспомним три основные стратегии повышения эффективности трансформеров без радикального изменения архитектуры (без перехода на Mamba-подобные модели, например):

    • Mixture-of-Experts (MoE, смесь экспертов) добавляет разреженность активаций при инференсе: в модели есть много подсетей-экспертов, и специальный роутер выбирает, какую подсеть использовать для каждого токена на каждом MoE-слое; в результате получается, что параметров у сети очень много, но на каждый токен активируется только небольшое их подмножество; MoE — это огромная наука, о которой я, надеюсь, скоро расскажу гораздо подробнее, но в общем все современные гигантские модели устроены именно так;
    • layer tying (связывание слоёв) уменьшает число параметров за счёт повторного использования одних и тех же весов в разных слоях; эта стратегия используется как минимум с времён Universal Transformers (Dehgani et al., 2018) и продолжает появляться до сих пор (Gholami, Omar, 2023; Bae et al., 2025b);
    • early exiting (ранний выход) тоже добавляет разреженности, как и MoE, но за счёт остановки обработки на ранних слоях для более простых токенов; идея восходит к Depth-adaptive Transformers (Elbayad et al., 2020) и продолжает развиваться; например, недавно появилась архитектура LayerSkip (Elhoushi et al., 2024).

    Традиционно исследователи использовали только один из таких подходов зараз, особенно учитывая, что эти стратегии нацелены на разные вещи: связывание весов экономит память, но не время инференса, а разреженные активации или ранние выходы, наоборот, никак не уменьшают требуемую память. MoR утверждает, что можно и нужно решать обе проблемы одним архитектурным решением. Давайте сначала рассмотрим непосредственных предшественников и идейных вдохновителей MoR, а потом перейдём и к самой статье.

    Mixture-of-Depths и рекурсивные трансформеры

    Первым важным предшественником этой работы стала идея Mixture-of-Depths, предложенная исследователями из Google DeepMind (Raposo et al., 2024). Они ввели маршрутизацию на уровне токенов для адаптивных вычислений. В то время как MoE-модели обучают маршрутизатор выбирать между разными подсетями (экспертами), Mixture-of-Depths обучает маршрутизатор выбирать, использовать ли слой или перейти непосредственно к остаточному соединению:

    А если объединить связывание слоёв и ранние выходы, получатся рекурсивные трансформеры (Recursive Transformers, Bae et al., 2025b) — модели, которые повторяют один блок из K слоёв несколько раз, создавая зацикленную архитектуру. Например, вместо 30 уникальных слоёв в рекурсивной модели будет всего 10 слоёв, которые применяются трижды, что, соответственно, втрое сокращает число параметров:

    Но какой смысл применять одни и те же слои несколько раз? Ранний слой, предназначенный для работы с самими токенами, был бы бесполезен при применении к их глобальным семантическим представлениям в более высоких слоях. И действительно, было бы лучше иметь способ модифицировать слои по мере продвижения. Поэтому Relaxed Recursive Transformers (RRT, релаксированные рекурсивные трансформеры) добавляют небольшие LoRA-адаптеры к слоям, которые можно обучать отдельно для каждой итерации цикла:

    Bae et al. (2025b) обнаружили, что их RRT стабильно превосходят стандартные архитектуры: если дистиллировать предобученную модель Gemma 2B в рекурсивную Gemma 1B, результаты получаются намного лучше, чем при дистилляции в обычную Gemma 1B, и приближаются к результатам исходной модели с 2B параметров.

    Mixture-of-Recursions: адаптивная глубина для каждого токена

    И вот в последней работе Bae et al. (2025) делают следующий шаг. Они вводят механизмы маршрутизации, которые для каждого токена индивидуально решают, сколько раз применять рекурсивные блоки. Именно поэтому подход называется “смесью рекурсий”: небольшие подсети-маршрутизаторы делают обработку токенов адаптивной, динамически назначая различную глубину рекурсии отдельным токенам. Это значит, что если нужно породить простое функциональное слово, сеть сможет остановиться после первого прохода через рекурсивный блок, а для семантически богатого слова, которое нужно подумать, чтобы предсказать, сможет использовать, скажем, три итерации.

    На иллюстрации ниже показаны (a) структура маршрутизатора, который может пропустить шаг рекурсии, (b) общая структура модели и (c) пример того, как более простые токены производятся меньшим числом шагов рекурсии, чем семантически богатые:

    Идея в том, чтобы дать каждому токену ровно столько времени обработки, сколько ему нужно — ни больше, ни меньше. Сами роутеры обучаются во время обучения, развивая неявное понимание того, какие токены заслуживают более глубокой обработки.

    Такую адаптивную маршрутизацию можно реализовать по-разному. Авторы сравнивают две стратегии:

    • expert-choice routing (маршрутизация с выбором экспертом) рассматривает каждую глубину рекурсии как “эксперта” и выбирает, какие токены он хочет обработат; этот подход гарантирует идеальную балансировку нагрузки (большая проблема для MoE-моделей: как вы убедите роутер не отправлять всё на одного и того же эксперта?), поскольку здесь каждая итерация цикла обрабатывает фиксированное количество токенов; но тут нужно долго возиться с причинностью (в смысле causality), чтобы правильно получилось авторегрессивное порождение токенов;
    • token-choice routing (маршрутизация с выбором токеном) идёт более простым путём: каждый токен заранее решает, сколько шагов рекурсии ему нужно; хотя это может привести к дисбалансу нагрузки (что если все токены захотят максимум?), авторы показывают, что эту проблему можно смягчить дополнительной регуляризацией (load balancing losses).

    Вот иллюстрация двух схем маршрутизации от Bae et al. (2025):

    Кроме маршрутизации, эта картинка в части (с) иллюстрирует ещё и два механизма кэширования, которые в статье предложены:

    • recursion-wise KV caching (рекурсивное KV-кэширование, сверху) сохраняет пары KV только для токенов, которые реально обрабатываются на каждой глубине рекурсии;
    • recursive KV sharing (рекурсивное разделение KV, снизу) повторно использует пары KV, вычисленные на первом шаге рекурсии, для всех последующих шагов.

    На практике оба подхода к маршрутизации дают хорошие результаты (expert-choice чуть получше), а кэширование нужно выбирать по необходимости: recursive KV sharing быстрее, но требует больше памяти, чем рекурсивное KV-кэширование.

    Эмпирически у Bae et al. (2025) тоже всё неплохо получается: результаты демонстрируют, что MoR и теоретически элегантная идея, и практическую пользу приносит. При обучении с одинаковым вычислительным бюджетом MoR-модели стабильно превосходят обычные трансформеры, причём используя только около трети параметров эквивалентных стандартных моделей. Если дистиллировать Gemma 2B в рекурсивную Gemma 1B, получится модель гораздо лучше, чем если в обычную Gemma 1B, почти с такими же результатами, как исходная 2B.

    Идея MoR также приводит к значительному ускорению инференса (до 2x) за счёт специального механизма continuous depth-wise batching: поскольку у вас многие токены уходят из обработки раньше других, освободившиеся места можно сразу же заполнять новыми токенами. Это тоже кажется важной идеей: получается, что состав батча всё время меняется, освободившаяся память не простаивает и обработка идёт максимально быстро.

    Заключение

    Mixture-of-Recursions представляется важной работой; скорее всего, это не последнее слово, но направление крутое. Пожалуй, главная критика, которая приходит на ум, состоит в том, что эксперименты пока очень маленькие: я упоминал Gemma 2B, и действительно это самая большая модель, с которой в статье есть эксперименты. Но всё-таки будет удивительно, если идея MoR вдруг перестанет работать при масштабировании.

    Интересно, что MoR также естественным образом поддерживает test-time scaling: регулируя глубину рекурсии во время инференса, можно настраивать компромисс между качеством и скоростью. В некотором смысле MoR даёт естественный механизм для сложных рассуждений в латентном пространстве: раз токены могут проходить несколько раундов обработки, и это число раундов выбирает сам роутер, MoR-модель может обучиться “подумать, прежде чем говорить”.

    В целом, мне кажется, что эта серия работ — Mixture-of-Depths, рекурсивные трансформеры, Mixture-of-Recursions — представляет собой очень перспективное направление. Получаются большие AI-модели, адаптивные не только в том, какие подсети они используют (как обычные MoE-модели), но и в том, сколько вычислений они используют.

    Концептуально MoR представляет собой вертикальный вариант Mixture-of-Experts: вместо того чтобы распределять токены по широким экспертным матрицам, мы отправляем (или не отправляем) их дальше в глубину. Кстати, было бы очень легко объединить MoR и MoE, это естественный следующий шаг; думаю, тут это не сделано исключительно потому, что модели в целом пока что довольно маленькие. Я бы не удивился, если бы в скором времени в этом направлении появилась “3D-разреженная” модель — токены ⨉ глубина ⨉ эксперты.

    Так что, как я всегда говорю, даже если физическое масштабирование так или иначе остановится (сложно уже транзисторы дальше уменьшать), алгоритмический прогресс принесёт нам ещё немало новостей и немало иксов улучшения эффективности (и по скорости, и по памяти). Будем следить за прогрессом!

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • РОП ТОП-ДС со звёздочкой

    РОП ТОП-ДС со звёздочкой

    Максим Абрамов прислал забавную ссылку на новость в канале его команды бакалавриата “Искусственный интеллект и наука о данных“; англоязычная аббревиатура в ссылке очень богатая получается, я Максиму написал, надеюсь, сменят.) Спасибо коллегам, что из всей программы решили подсветить мой доклад, но на самом деле это было маленькое отчётное выступление в ряду нескольких десятков таких же от разных вузов. Это именно то, чем я занимался большую часть прошлой недели: повышал в ИТМО квалификацию по программе “Руководство образовательной программой по ИИ топ-уровня: компетентностно-ролевой подход”.

    В реальности это значило, что я изучал компетентностно-ролевую модель в области AI, которую разработали коллеги из ИТМО, и переводил на её шершавый язык учебный план бакалавриата “AI360: Математика машинного обучения“, которым я теперь руковожу. Более того, руковожу даже не чисто формально — в ИТМО я как раз проходил повышение квалификации и защищал программы СПбГУ по искусственному интеллекту, которые выиграли соответствующие конкурсы (вот новость на сайте СПбГУ, например). И надеюсь начиная с осени активнее участвовать в жизни факультета, только что обсуждали эти планы со Станиславом Смирновым.

    И вот: смотрите, завидуйте, я — РОП программы ТОП-ДС со звёздочкой! РОП – это “руководитель образовательной программы”, но не спрашивайте, почему “Top” написано большими русскими буквами (да, это именно top, никак не расшифровывается), а науки о данных имеют аббревиатуру “ДС”; казалось бы, или “НоД”, или “DS”… но нет, “ДС”.

    На самом деле я хоть и подшучиваю, но очень далёк от того, чтобы всерьёз критиковать получившуюся у ИТМО модель. Если бы мне поставили задачу разработать такой мегаплан всей области AI-образования, я бы точно лучше не справился. Если принять необходимость существования подобного документа как выбитую на скрижали данность, то сам документ получился очень разумный. Да и многие лекции на программе повышения квалификации были действительно интересные. Но по сути основное, что от нас там требовалось, конечно, свелось к большой и не слишком содержательной бюрократической деятельности.

    Лично я ещё и болел всю прошлую неделю, и к пятнице, когда нужно было защищать программы, как раз была фаза, когда температура уже не слишком высокая, но одновременно болит горло и текут сопли. Так что фотография полностью отражает моё внутреннее и внешнее состояние в тот момент.)

    К чему я это всё рассказываю? Ну разумеется, к тому, чтобы порекламировать новый бакалавриат на МКН СПбГУ! Приходите к нам, у нас много курсов про машинное обучение и большие стипендии:

    AI360: Математика машинного обучения

    Все “старые” бакалавриаты МКН тоже, разумеется, по-прежнему великолепны, никакой, как это изящно назвали коллеги из ИТМО, “каннибализации” у нас не происходит и не предполагается. Пройти мой трёх-четырёхсеместровый курс машинного обучения можно на любой программе, и вообще все эти программы тоже разворачиваются лицом к искусственному интеллекту – что поделать, нынче жизнь такая:

    Понятия не имею, имеет ли смысл реклама сейчас или это уже только на следующий год, но в любом случае приходите к нам!

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Snufkin: Melody of Moominvalley

    Snufkin: Melody of Moominvalley

    Милая и незамысловатая игра про муми-троллей. Формально это RPG, там есть уровни и сайд-квесты, но на самом деле, конечно, это простенькое линейное приключение. Всё заканчивается быстро, за 3-4 часа вы спасёте Муми-дол, перетянете злых персонажей на сторону добра и увидите много всяческой милоты в довольно классической мумитролльной стилистике.

    Если вы любите муми-троллей, рекомендую однозначно. Если любите детские добрые игры и нравится эстетика, тоже. Хотя, кстати, сами муми-тролли не такие уж детские по нынешним временам, они скорее искренне-жизненные. Вот, например, из “Муми-папа и море“:

    — Мы нашли ящик виски, — сообщил Муми-тролль.
    — Великолепно! — сказала Муми-мама. — Теперь мы должны устроить пикник!

    Лично я в целом не пожалел, что прошёл, это было очень мило. Но и не сказать, что очень увлекательно, особых твистов сюжета или крутого геймплея тут не ждите. Но расслабиться на вечер или в поездке отлично, мне на два самолёта хватило.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • Year Walk

    Year Walk

    Вот это тот жанр, который мне нравится! Очень короткая игра, которая рассказывает тебе интересные вещи, да ещё и немножко играет с четвёртой стеной. Советую просто взять и пройти, это займёт не больше пары часов и будет действительно интересно.

    Year walk (Årsgång) — это реально существовавшая шведская традиция особого гадания, когда люди перед Новым годом или Рождеством сначала себя всячески очищали, а потом отправлялись в долгую ритуальную прогулку. Если у них всё на прогулке получалось, то они могли там увидеть будущее, отображение событий наступающего года. Но в игре, кроме шведского фольклора, есть ещё и сюжет (большая часть которого начинается после титров, не пропустите!), и всё умещается в два часа, так что спойлерить особо не буду, просто рекомендую попробовать.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • Timelie

    Timelie

    Игра-головоломка, где основная механика — это стелс через управление временем. В каждой головоломке ты должен (то есть должна) пройти в дверь, не попадаясь на глаза роботам, и ты можешь перематывать время туда-обратно в любой момент очень детально. Есть, конечно, и ещё несколько механик, в том числе ужасно милый котик, который управляется отдельно и умеет привлекать внимание через мяукание — котики любой игре дают +1 балл сразу, конечно же.

    Как головоломка Timelie работает хорошо: в основном проходится легко, но иногда есть о чём подумать, а перемотка времени гарантирует, что нет никакого бэктрекинга и переигрывания по новой, чем часто грешат чистые головоломки. Любителям пазлов рекомендую однозначно.

    Но лично мне в игре всё время очень не хватало сюжета. Что вообще в игре происходит, решительно непонятно, всё очень, очень абстрактно. То, куда мы идём и зачем, мотивировано разве что тем, что за нами иногда гонится непонятная волна разрушения. Наверняка это какая-нибудь мощная метафора какой-нибудь потери (котика?). Если бы тут ещё и был хороший сюжет, как было, например, в чистой головоломке Filament (я её здесь не обозревал, а зря, надо бы вернуться к обзорам из архивов), это была бы игра на 8-9 баллов для меня.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура”: присоединяйтесь!

  • Deep Think и IMO 2025: сложные отношения OpenAI и математики

    Deep Think и IMO 2025: сложные отношения OpenAI и математики

    Главный девиз Google — “Don’t be evil” — почему-то совсем не даётся OpenAI. За что ни возьмутся, какая-то мутная ерунда получается. И хотя на этот раз результаты никто, кажется, под сомнение не ставит, давайте вспомним сложные отношения OpenAI с математикой, обсудим IMO 2025 и восхитимся Deep Think от DeepMind.

    MATH: давайте добавим test в train

    Начну с истории 2023 года, когда OpenAI в своей работе “Let’s Verify Step by Step” решила слегка подкорректировать правила игры. Датасет MATH (Hendrycks et al., 2021) долгое время был золотым стандартом для оценки математических способностей языковых моделей. Исследователи использовали его 7500 тренировочных и 5000 тестовых задач для сравнения своих моделей.

    Что же сделала OpenAI? Они взяли 4500 задач из оригинального тестового набора MATH и… включили их в свой тренировочный датасет PRM800K. Формально всё честно: Lightman et al. открыто об этом написали в статье и не утверждали, что проводят честное сравнение с моделями, не видевшими этот тестовый набор; работа вообще была о process reward models.

    Но фактически это означало конец классического бенчмарка MATH в том виде, в котором он существовал: когда PRM800K стал одним из стандартных обучающих датасетов, стало гораздо сложнее обеспечить чистоту тестовой выборки для исходного MATH. Многие исследователи теперь относятся к результатам на MATH, особенно результатам OpenAI, с большой осторожностью.

    Дрейф моделей: сложные простые числа

    Этот раздел не совсем про математику, но так получилось, что интересные эффекты моделей OpenAI заметили именно на математических тестовых вопросах.

    Летом 2023 года исследователи из Стэнфорда и Беркли обнаружили очень странный эффект (Chen et al., 2023). Они решили проверить, как меняется производительность GPT-4 со временем, и, как говорили когда-то в интернете, “результат убил”.

    Они задавали GPT одну и ту же задачу: “Is 17077 a prime number? Think step by step and then answer [Yes] or [No].” В марте 2023 года GPT-4 давал правильный ответ в 84% случаев, а к июню того же года точность упала до 51.1%! Что самое интересное — GPT-3.5 показал обратную динамику, с 49.6% в марте до 76.2% в июне. И этот эффект устойчиво проявлялся с многими разными вопросами:

    Питер Велиндер из OpenAI попытался объяснить ситуацию: “Мы не делали GPT-4 глупее. Совсем наоборот: мы делаем каждую новую версию умнее предыдущей. Наша текущая гипотеза такова: когда вы больше используете модель, вы начинаете замечать проблемы, которые раньше не видели”.

    Но исследователи-то проводили одинаковые тесты в разное время! Очевидно, они не просто “заметили новые баги” — модель разучилась делать то, что умела раньше.

    Это было первой и самой яркой иллюстрацией того, что ведущие лаборатории часто подменяют модели прямо в production, иногда тихо и незаметно, и далеко не всегда новые модели лучше.

    В целом это, конечно, нормально, хотя не до конца ясно, почему бы не оставлять доступ и к старым версиям моделей, например за деньги по API. Давеча вот была целая инициатива за то, чтобы сохранить Claude 3 Opus; надеюсь, Anthropic прислушается, но это уже другая история.

    FrontierMATH: судья в доле?

    В январе 2025 года разразился новый скандал, целый “бенчмарк-гейт”, на этот раз действительно про математику и действительно сомнительный.

    Датасет FrontierMATH позиционируется как новый, сверхсложный математический бенчмарк от Epoch AI, содержащий только новые и неопубликованные задачи. Идея была прекрасной — создать тест, который точно не попал в тренировочные данные ни одной модели, и который содержит задачи хоть и с заранее известными ответами, но максимально близкие к исследовательской математике. Я много раз рассказывал о нём в своих докладах; последний был на CS Space митапе.

    И вот OpenAI демонстрирует свою новую модель o3, которая набирает на FrontierMATH впечатляющие 25% — в то время как другие модели едва дотягивают до 2%. Величайший прорыв в математических рассуждениях? Нууу… в общем да, но не совсем, и со звёздочкой.

    Оказалось, что OpenAI не просто использовала этот бенчмарк — компания профинансировала его создание и имела доступ к задачам! Более того, математики, создававшие задачи для FrontierMATH, даже не знали о связи проекта с OpenAI. Разумеется, представители Epoch AI попытались сгладить ситуацию и объяснили, что они создают специальный “holdout” набор задач, к которому у OpenAI не будет доступа, но всё это звучало очень подозрительно.

    В том, насколько это мутная история, легко убедиться по самым что ни на есть первоисточникам: просто посмотрите на саму статью Glazer et al. (2024) о датасете FrontierMATH. На arXiv, который помнит всё, есть пять версий этой статьи (это нормально, статьи часто дорабатывают). В версиях до четвёртой включительно acknowledgements выглядят вот так:

    А в пятой версии, появившейся 20 декабря 2024 года, мы уже видим OpenAI:

    Критики, разумеется, сочли всю эту ситуацию нечестными манипуляциями и потребовали тщательного аудита результатов. Последующая независимая проверка показала, что o3-mini набирает на тестовом множестве FrontierMATH всего 11%.

    Потом o4-mini показала себя гораздо лучше, и сейчас у датасета FrontierMATH две верхние строчки с огромным отрывом занимают модели OpenAI, да и дальше только Gemini 2.5 Pro может как-то конкурировать:

    Но все до сих пор вспоминают объявление о 25%.

    IMO 2025: хайп превыше всего

    А самая свежая история, ради которой мы сегодня собрались, произошла на днях с Международной математической олимпиадой 2025 года (IMO 2025). Мы только что обсуждали, что экспериментальная модель OpenAI решила 5 из 6 задач и достигла уровня золотой медали. Результат действительно впечатляющий — это огромный прорыв для LLM.

    Вот только опять оказывается, что есть нюанс. По словам инсайдеров, организаторы IMO попросили все AI-компании не красть внимание у детей и подождать неделю после церемонии закрытия, прежде чем объявлять свои результаты:

    Что сделала OpenAI? Объявила результаты сразу после церемонии закрытия, но за неделю до срока, о котором просили.

    Джозеф Майерс, координатор шестой задачи (единственной, которую модель OpenAI не решила), поделился мнением жюри: “Общее мнение жюри и координаторов IMO заключается в том, что это было грубо и неуместно”.

    Более того, OpenAI не была среди компаний, которые сотрудничали с IMO для официального тестирования моделей. То есть, в отличие от результатов Google DeepMind, мы даже не можем быть уверены, что их “золотая медаль” полностью легитимна.

    Deep Think: Google is Not Evil

    И вот для контраста посмотрим, как повела себя команда Google DeepMind в аналогичной ситуации. Их модель Deep Think тоже решила 5 из 6 задач IMO 2025 — точно такой же результат, как у OpenAI. Теперь уже вышел официальный пост об этом.

    Как и у OpenAI, речь идёт не об Alpha Proof 2, а о том, что обычная LLM, экспериментальный вариант Gemini под названием Deep Think, решал задачи на естественном языке:

    Так что в этом смысле анонсы двух компаний полностью эквивалентны. Но есть и важные отличия.

    Во-первых, Google дождалась официальной сертификации результатов IMO, прежде чем делать объявление, из уважения к участникам соревнования. Тханг Луонг из DeepMind так и говорит: “Мы подождали, пока IMO официально подтвердит результаты соревнования, а не выпустили их в выходные”.

    Во-вторых — и это уже куда важнее для нас, пользователей — по словам Луонга, модель, которая участвовала в IMO, “на самом деле очень близка к основной модели Gemini, которую мы предлагаем людям”. То есть это не какая-то сверхсекретная экспериментальная разработка, а почти готовый продукт, в то время как OpenAI заявлял, что до релиза их экспериментальной модели ещё точно не меньше нескольких месяцев.

    В-третьих, интересно, как по-разному выглядят решения задач.

    Вот кусочек её решения от модели OpenAI:

    2. Lemma: n>=4, any n-line cover of P_n must use a side of triangle.

    Call boundary point set of triangle:
    B_n = P_n ∩ (H_n ∪ V_n ∪ D_n): all integer points on 3 sides.
    Count: each side has n lattice points. Three vertices each in two sides, no triple. So |B_n|= n+n+n -3=3n-3.

    Now: L = {ℓ_1,…,ℓ_n} n distinct lines, cover all P_n. Suppose none of ℓ_i coincide with H_n,V_n,D_n.

    Need contradiction for n>=4.

    Geometry: T_n (filled triangle) is convex. Intersect any line ℓ with T_n:
    ℓ∩T_n is empty / point / segment. If ℓ doesn’t contain whole side (that’s assumption), then ℓ∩∂T_n has at most two points (if segment, two endpoints). So: any line not equal to a side contains at most 2 points of boundary of T_n.

    So each ℓ_i contains at most 2 points of B_n. So n lines cover at most 2n boundary points. But must cover all B_n (subset of P_n). Need 2n >= |B_n|=3n-3. For n>=4, 3n-3 >2n (difference n-3>0), impossible. Contradiction. So for n>=4, in any n-line cover of P_n, at least one of three side lines H_n, V_n, D_n is present. Exactly lemma. Good. (that’s main structural lemma)

    So n>=4: any configuration has a boundary side line (non-sunny).

    Now reduction from n to n-1.

    Suppose n>=4, have n-line family L for P_n. Lemma gives side line E in L.

    Remove E, get n-1 remaining lines.

    Need show remaining (after appropriate translation) is configuration for P_{n-1}, same #sunny.

    Three cases:

    1) E = D_n: hyp line x+y=n+1. P_n \ D_n = {integer>=1 with sum<=n} = P_{n-1} exactly. D_n only hits sum=n+1 points, disjoint from P_{n-1}. So remaining n-1 lines alone cover P_{n-1}. Done, no transform.

    2) E=H_n (y=1). Remaining points of P_n besides H_n: y>=2. Mapping down by 1 in y:
    bijection T: (x,y+1) ↔ (x,y), between P_n \ H_n and P_{n-1}. Exactly: if (a,b) in P_{n-1}, (a,b+1) in P_n, y>=2, sum a+b+1<=n+1. Conversely. Take remaining n-1 lines ℓ in L{H_n}, translate downward by vector (0,-1). family L’ size n-1. For any p in P_{n-1}, p+(0,1) is in P_n \ H_n, covered by some ℓ; shift ℓ down, p covered by ℓ’. So L’ covers P_{n-1}. Translation preserves direction -> sunny status same.

    3) E=V_n (x=1), same via shift (-1,0). Exactly same.

    So any n-line cover for P_n (n>=4) -> n-1-line cover for P_{n-1}, same #sunny.

    So iterate: for n>=4, reduce n -> n-1 -> … -> 3. Each step n>=4 (when parameter>=4) lemma applies. So any configuration for P_n (any n>=4) produces configuration for P_3 with same number of sunny lines. So possible k for n>=4 are subset of K_3. Great…

    Прочитать в целом можно, и написано в целом на английском языке, конечно. Но вот кусочек из решения той же задачи от Deep Think:

    Модель от DeepMind пишет гораздо более “человечные” и понятные решения. Почему так, разумеется, непонятно: что вдруг заставило модель OpenAI перейти на этот птичий язык? Да и наверняка можно попросить ту же или другую модель переписать решения от OpenAI более понятно. Но это отчасти подтверждает заявления о более близком релизе.

    Заключение: немного о репутации

    История отношений OpenAI с математическими бенчмарками читается как пример того, как не надо строить репутацию в научном сообществе. Каждый раз компания технически ничего не нарушает, но каждый раз оставляет неприятный осадок.

    Изменение правил игры с MATH датасетом? Формально всё честно. Странный дрейф производительности моделей? Никто никому ничего не обещал. Тайное финансирование FrontierMATH? Ну, они же потом раскрыли информацию. Игнорирование просьбы IMO? Они не были обязаны соблюдать эмбарго, да и технически их никто не просил, потому что они с IMO не сотрудничали.

    Но в совокупности эти истории рисуют не слишком приятный образ OpenAI, и осадочек всё накапливается и накапливается (хотя о чём это я, осадок от OpenAI уже давно высыпается из бокала).

    В итоге получается странно: и в истории с FrontierMATH, и с IMO 2025 OpenAI ведь и правда сделала большие прорывы в решении математических задач. Текущие результаты o4-mini на FrontierMATH никто под сомнение не ставит, да и решения задач IMO, скорее всего, получены честно. Но я абсолютно уверен, что репутация OpenAI от этих историй проиграла, а не выиграла. И зачем, спрашивается, так было делать?

    Как говорится, я решил пятьдесят задач из FrontierMATH, но никто не называет меня “Сэм-Великий-Математик”; я решил пять из шести задач IMO 2025, но никто не называет меня “Сэм-Чемпион-Олимпиад”…

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?

    Секретная модель OpenAI берёт золото IMO 2025: Proof or Bluff?

    Совсем недавно я рассказывал об LLM для математики на митапе CS Space, и вот появилась мощная новость на эту тему. Говорят, новая модель от OpenAI, которая ещё не скоро будет опубликована, смогла нарешать на золотую медаль IMO 2025! Но ведь ещё год назад AlphaProof не хватало одного балла до золота IMO 2025, так что же здесь удивительного? Давайте разберёмся по порядку: начнём с того, чем был прошлогодний AlphaProof, а потом перейдём к последней новости.

    Кто же выиграл серебро? AlphaGeometry и AlphaProof

    История AlphaProof началась с модели AlphaGeometry (Trinh et al., 2024), которая совмещала LLM и символьные вычисления в духе DeepMind’овских моделей вроде AlphaTensor. Чтобы решить геометрическую задачу, нужно уметь:

    • выводить все факты об объектах, которые можно увидеть на рисунке;
    • делать новые построения, которые добавят новые объекты, о которых можно повыводить факты.

    Первый пункт здесь в основном чисто технический и формальный, а творчество состоит во втором пункте. Поэтому в AlphaGeometry LLM порождает идеи для новых построений, а symbolic engine выводит из них всё, что можно:

    AlphaGeometry решал геометрические задачи на уровне серебра IMO. Потом появилась AlphaGeometry 2, на модели Gemini получше и на большем синтетическом датасете.

    Ну а потом перешли и к не-геометрическим задачам. В системе AlphaProof (DeepMind, 2024; см. также презентацию) LLM соединяется с Lean, системой для порождения и проверки формальных доказательств (proof assistant). Специально дообученная модель Gemini переводит естественный язык в формальную постановку, а потом RL в стиле AlphaZero обучается искать доказательство в Lean:

    Здесь солвер (solver network) — это модель, которая выбирает следующий “ход” в виде Lean tactic, как AlphaZero. Солвер обучается сначала с учителем на mathlib, большой библиотеке проверенных формальных доказательств, а потом обучением с подкреплением, где Lean проверяет порождённые доказательства.

    Солвер учится доказывать так же, как AlphaZero учится играть в шахматы, это поиск по дереву; а LLM даёт формализацию и новые идеи. По мере решения задач они добавляются в обучение, т.е. сам собой получается curriculum learning от простого к сложному.

    В итоге AlphaProof вместе с AlphaGeometry 2 дошли до уровня серебряной медали на IMO 2024, минус один балл от золота:

    Это направление, конечно же, продолжается и сегодня, и есть масса работ о том, как соединить формальные доказательства с LLM. Наверное, самый громкий недавний релиз — это DeepSeek-Prover-V2 (Ren et al., 30 апреля 2025): LLM, специально дообученная для формальных доказательств в Lean 4:

    Сейчас обычно именно его используют в дальнейших таких исследованиях (например, DREAM от Cao et al., June 20, 2025, или LeanConjecturer от Onda et al., June 27, 2025), но сам по себе DeepSeek-Prover-V2, конечно, никакого золота IMO не выиграет.

    LLM до сих пор: Proofs and Bluffs

    Выходит, AlphaProof — это что-то очень сложное, что нам с вами не запустить. Мне не до конца понятно, почему мы не знаем результатов AlphaProof на FrontierMath и тому подобных более “научных” датасетах, но нам, пользователям, в любом случае интереснее, как работают те LLM, к которым мы можем получить доступ (хотя бы в некотором будущем). Как же “чистые” LLM, без обвязки и дообучения подобно AlphaProof, справляются со сложными олимпиадными задачами?

    В докладе на митапе я остановился на отрицательном результате. В работе под названием “Proof or Bluff” Petrov et al. проверили, как LLM справятся с 2025 USA Math Olympiad, которой точно не было в обучающей выборке. Просили писать полное доказательство и проверяли как людей. Оказалось, что результаты были почти нулевыми, максимум 2 балла из 42 у DeepSeek R1:

    Разумеется, и этот результат в итоге оказался не таким обескураживающим, как кажется. Первая версия “Proof or Bluff” вышла 27 марта 2025 года, а буквально через неделю вышла Gemini 2.5 Pro, и Petrov et al. пришлось срочно обновлять табличку! В версии от 9 апреля Gemini 2.5 Pro решает уже одну задачу совсем хорошо и другую наполовину, 10 баллов из 42:

    А 29 мая появился новый бенчмарк: исследователи из ETH Zurich Balunovic et al. (2025) сделали бенчмарк MathArena, который призван как раз сравнивать LLM на разных математических олимпиадах. Они сравнили o3, o4-mini, Gemini-2.5-Pro, Grok-4 и Deepseek-R1, причём старались делать это по-честному, с максимальной “силой” модели:

    • порождали по 32 ответа для каждой модели и выбирали лучший самой же моделью (best-of-32); это хороший способ улучшить результат, особенно в задачах на доказательство;
    • проверяли полученные решения руками, четырьмя профессиональными судьями, у которых был опыт проверки IMO и других олимпиад.

    В частности, такой эксперимент провели и на IMO 2025. И вот что у них получилось:

    Получился огромный прогресс по сравнению с тем, что было в конце марта: Gemini 2.5 Pro уже набрала довольно много баллов… но это далеко не золото. Пост от создателей бенчмарка так и назывался: “Not Even Bronze“.

    Новая модель OpenAI: золото IMO для “чистой” LLM

    И с этим мы подходим к 18-19 июля 2025 года, когда исследователи из OpenAI объявили, что их новая модель смогла добраться до уровня золота IMO 2025. У нас пока не так много информации: тред Alexander Wei, репозиторий с решениями задач и тред Noam Brown; если честно, мне кажется, что это “пока” ещё надолго, OpenAI ещё очень долго не планируют релиз этой экспериментальной модели.

    И тем не менее кое-какие важные детали мы узнали:

    • это general reasoning LLM, не система вроде AlphaProof или DeepSeek-Prover; иначе говоря, это обычная LLM вроде o3-pro, только лучше, следующая итерация;
    • очевидно, там было много улучшений, но главное, о чём пишут Wei и Brown — это следующий шаг в масштабировании test-time reasoning; современные модели “размышляют” в течение считанных минут подряд (Deep Research не совсем считается, там скорее много небольших размышлений объединены), а эта секретная модель может думать уже в течение пары часов;
    • кстати, о часах — модель участвовала наравне с людьми, в течение двух четырёхчасовых сессий; это тоже важно, потому что, например, AlphaProof в прошлом году решал задачи, кажется, трое суток;
    • оценивали тоже наравне с людьми, три судьи с опытом оценки настоящих IMO; в результате модель набрала 35 баллов из 42, решив пять задач из шести; кстати, если это значит, что 5 из 6 решены на 7 баллов, а шестая никак (Wei не уточняет), то это тоже шаг вперёд от текущих LLM, которые всё время чего-то недоговаривают и набирают частичные баллы, даже если идея правильная.

    Я хотел было обсудить какую-нибудь задачу из IMO 2025 и её решение новой моделью OpenAI… но быстро сдался. Решения выглядят хоть и читаемо в целом, но разбираться в них нелегко; вот типичный кусочек:

    3. Analyze n=3 exactly.

    S := P_3 = {positive ints (a,b), a+b<=4}: 6 points.
    List as:
    A=(1,1), B=(1,2), C=(1,3), D=(2,1), E=(2,2), F=(3,1). Exactly 6.

    First enumerate non-sunny lines’ intersections with S.

    Non-sunny directions: vertical x=const, horizontal y=const, diagonal x+y=const.

    Inside S:
    Verticals: x=1: {A,B,C} (size3), x=2:{D,E} size2, x=3:{F}.
    Horiz: y=1 {A,D,F} size3, y=2 {B,E} size2, y=3 {C}.
    Diagonal: sums:2:{A} ,3:{B,D} size2, 4:{C,E,F} size3.
    So any non-sunny line intersection with S is subset of one of:
    three size3 sets: {A,B,C}; {A,D,F}; {C,E,F};
    three size2: {B,E}; {D,E}; {B,D}. (size1 irrelevant).

    So far.

    Надеюсь, Фёдор Петров, который на митапе рассказывал про LLM и олимпиадные задачи, разберётся. Я готов поверить, что умными людьми уже проверено; достижение в любом случае замечательное.

    На Manifold был на этот счёт prediction market, на котором отметились даже такие люди, как Пол Кристиано и Элиэзер Юдковский. В 2022 году Кристиано писал: “I’d put 4% on “For the 2022, 2023, 2024, or 2025 IMO an AI built before the IMO is able to solve the single hardest problem… Maybe I’ll go 8% on “gets gold” instead of “solves hardest problem”.” Юдковский был более оптимистичен: “My probability is at least 16% [on the IMO grand challenge falling]”.

    Не будем их критиковать: в 2022 предсказать реальную скорость прогресса было очень сложно. Но сейчас линия этого предсказания выглядит вот так:

    Заключение

    Заглавная картинка в посте — намёк на знаменитый мем о сборной США на IMO. Может быть, скоро роботы превзойдут людей и в математических олимпиадах. Но главное, конечно, не в том, чтобы решать олимпиадные задачки. Шахматы не умерли с появлением сверхчеловеческих движков (а скорее набрали популярность), и математические олимпиады как соревнования между людьми не умрут.

    Главное в том, сможет ли этот прогресс превратиться не просто в спортивный успех, а в новые математические результаты. А где математические, там и алгоритмические, а там и пресловутый self-improvement, первые шаги которого мы только что видели в AlphaEvolve.

    И вот это уже очень, очень интересный вопрос.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Немного о Париже

    Немного о Париже

    Это была целая пятничная неделя, так что вместо пятничного поста просто ещё пара зарисовок.

    1.
    В понедельник День взятия Бастилии продолжился тем, что мы пошли смотреть праздничный салют. Всё прошло чрезвычайно удачно: пришли за три часа, ровно в тот момент, когда полиция только начала запускать за оцепление на Трокадеро. Там мы обнаружили интересных русских людей — наверное, нехорошо выкладывать фото, но один из них был просто вылитый Джон Малкович, вплоть до мимики и жестикуляции — и француза, который прекрасно говорил по-русски. С ними мы эти три часа и провели на самом лучшем месте для обзора.

    А сам салют был просто невероятный. Не пожалел, что столько ждал, и закрыл для себя эту тему, надеюсь, на всю жизнь. Организаторы объединили обычный фейерверк с дронами, которыми можно рисовать в небе чёткие картинки, и вышло действительно очень круто. В своём телеграм-канале выложил видео, посмотрите.

    2.
    Побывал в Музее Средневековья в “отеле Клюни” — остался не то чтобы разочарован, но как-то… ну да, пожалуй, разочарован. Хотя не уверен, чего я ожидал. Из забавного могу разве что показать, как там раскладывают мелкие украшения на соответствующие карты Magic: the Gathering.

    В Орсэ тоже сходил, на всё посмотрел, но это было уже в последний день, я был невыспавшийся и ничего особенно уже не хотел, и как-то это всё оставило несколько смазанное впечатление. Впрочем, импрессионисты, кажется, так и задумывали. При случае попробую ещё.

    3.
    И ещё две мини-истории про exceeding expectations.

    Вчера на входе в гейт (уже на выходе в автобус) мой посадочный вдруг загорелся красным, и меня попросили отойти в сторонку. Поскольку я летел лоукостером FlyOne по самому дешёвому тарифу, я уже успел заготовить глаза кота из “Шрека” и мысленно попрощаться с чемоданом. Но оказалось, что милейшая женщина поменяла мне место в посадочном на гораздо лучшее (кажется, с 19B на 10C) вот с таким объяснением:

    — I changed your seat because there was someone who doesn’t smell too good next to you!

    А сегодня утром в гостеприимном Ереване заказал в кафе сырники со сгущёнкой и думал, что это будут сырники со сгущёнкой. А принесли то, что на последнем фото.

    Чего и вам желаю.

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!

  • Немного о Лувре

    Немного о Лувре

    Вчера был мощный день взятия Бастилии. Сначала я полдня гулял по Лувру — очень сильное впечатление, конечно; отвлекусь пока от AI и расскажу вам немножко из того, что мне показалось интересным.

    Во-первых, в Лувре, конечно, очень странные ребята развеску делают. Я нашёл там полный зал Тицианов, Тинторетто и Веронезе, десятки картин титанов Возрождения. Но к ним толком даже не подойти, потому что выглядит этот зал вот так:

    При этом в широком свободном коридоре висит, конечно, Рафаэль и другие картины Леонардо, но вместе с ним и куча имён второго-третьего ряда, которых было бы логично туда к “Моне Лизе” и отправить.

    Во-вторых, интересно было увидеть, что вызывает интерес, а что не очень. Конечно, у Венеры Милосской небольшая толпа:

    С Никой Самофракийской тоже все фотографируются, она там на входе стоит:

    Но вот, например, у “Свободы на баррикадах” народ толпится:

    А висящий в том же зале через одну картину “Плот ‘Медузы’” никому не нужен:

    И совсем уж я засомневался, когда встретил висящие буквально рядом “Смерть Марата” и “Клятву Горациев”, которые тоже вообще никакого интереса у публики не вызывали!

    Может, это именно в российском (или ЧГКшном?) восприятии что-то исказилось?..

    Потом я зашёл в какую-то… простите, какой-то дальний угол этого мира искусства, сначала по узкой винтовой лестнице, потом ещё через десяток залов, потолки стали гораздо ниже, я вообще не понимал где я… но вдруг обнаружил там Моне, Дега, Сезанна, Ренуара, Писарро и Сислея, которые тоже абсолютно никому были не нужны:

    Зато встретил старых знакомых:

    И вскоре после этого увидел, что бывает, если слишком долго выдавать льву зарплату ветками (превед!):

    А у коня маршала Мюрата в глазах вся боль лошадиного народа:

    В зале древнегреческого искусства был очень, очень странный потолок, вообще не подходящий ко всему остальному. Я ему немного поудивлялся, а потом обнаружил табличку со знакомым именем:

    Правда, в соседнем зале потолок оказался ещё круче:

    В Лувре, конечно, далеко не только картины. В том числе я побывал на двух необычных выставках с крутой идеей. В отделе декоративного искусства Givenchy, YSL, Dior и другие показывают свои работы в интерьерах разных поздних Людовиков:

    А ещё в паре залов выставлены рамы от картин, которые были утеряны или проданы:

    Поразился тому, какие на самом деле маленькие клинописные таблички; вот здесь, насколько я смог понять из подписи на французском, учат делить в столбик:

    А это какой-то аккадский правитель; по-моему, симпатяга:

    В общем, Лувр крутой, будьте как Лувр!

    Сергей Николенко

    P.S. Прокомментировать и обсудить пост можно в канале “Sineкура: присоединяйтесь!