
ИИ-компании активно развивают Chain-of-Thought (CoT) подход. Примеров масса: o3 и o4, DeepSeek R1, Claude Thinking, YandexGPT с режимом рассуждений и так далее. Такие модели разбивают проблему на этапы и будто обдумывают их. Однако за иллюзией логических цепочек скрываются довольно примитивный по своей сути подход. Например, даже незначительное изменение вводных в задаче может привести к резкому падению точности — на десятки процентов. А добавление одного нерелевантного факта иногда сбивает с толку сильнейшие модели: они начинают вычитать, умножать или делать лишние шаги просто потому что заметили знакомую лексику.
Более того, чем сложнее задача, тем меньше «думает» модель: длина reasoning сокращается, несмотря на то, что модель не достигла лимита токенов. Это странное поведение зафиксировано в тестах на логических головоломках.
Главное — даже при наличии пошагового алгоритма, модель не способна просто его воспроизвести. Ей трудно следовать чётким инструкциям, и она может «сломаться» уже на пятом-шестом шаге. Это означает: проблема не в вычислениях, а в отсутствии настоящего понимания. ИИ подменяют рассуждение вероятностным сопоставлением паттернов.
Что из этого следует? Во-первых, снова повторим свою мысль, что стоит критично относиться к маркетинговым слоганам о «рассуждающих моделях». Во-вторых, LLM могут казаться «разумными», пока задача совпадает с обучающими паттернами. Но в незнакомых условиях — теряются, и нужно об этом помнить. И наконец, для индустрии это важный сигнал, что увеличение количества токенов не приведёт к настоящему мышлению.