В тексте про рассуждающие модели, который случайно вышел прямо перед релизом нового поколения нейросетей от OpenAI, мы писали о минусах таких моделей. И вот, спустя какое-то время, появилось подтверждение — новое поколение бьёт рекорды в одних задачах, но сильно хуже справляется с другими.
По-прежнему не изменился тот факт, что новые функции работают впечатляюще — доступ к инструментам ChatGPT сделал работу с o3 гораздо более простой и интуитивной (подробнее можно почитать в тексте про них). Релиз приближает нас к тому дню, когда не нужно будет разбираться в стилях, промптах, настройках сервиса, версиях моделей, а достаточно просто будет описывать несколькими словами задачу и получать результат. Но пока этот момент, к сожалению, не наступил.
Свой рекорд с по привлечению пользователей картинками в стиле Гибли компания не побила, но даже здесь смогла завируситься — благодаря навыку ИИ определять место съемки практически любой цифровой фотографии (работает это за счёт того, что модель понимает фотографии, умеет их приближать, вращать, изучать, писать скрипты на Питоне и проводить поиск в Интернете, что в совокупности позволяет определить локацию).
Всё бы ничего, но пока любое усложнение модели ведёт к дополнительным проблемам. Новое поколение думающих моделей, благодаря тому, что думают больше — парадоксально и больше ошибаются. Они не справляются с величиной контекста, в случае ошибки не пытаются её исправить, а придумывают аргументы и убеждают себя в правильности ответа. o3 делает ошибки в математике, иногда обманывает и «галлюцинирует» в два раза чаще своего предшественника. Даже в финансовом анализе, где o3 лидирует среди конкурентов, точность составляет всего 48,3%.
Появился термин «неровной границы» (jagged frontier) — когда в одних задачах ИИ превосходит человека по скорости и качеству работы в десятки раз, а в других на него в принципе нельзя положиться. А вывод, как в случае с измерением продуктивности — не нужно пытаться использовать ИИ там, где от него нет толку, и проблем не будет.