OpenAI выпустили модели o3 и o4-mini

Скриншот сервиса ChatGPT
Из важных улучшений — флагманская модель o3 обрабатывает изображения во время размышлений и может взаимодействовать с загруженными фотографиями. Обещают, что поймёт даже чертёж на салфетке или схемы в низком разрешении. Это не совсем нововведение — то же самое умели делать и раньше мультимодальные модели вроде 4o, или работающие в связке VLM и LLM модели, но теперь этот процесс встраивается в «рассуждения» модели.

Самое важное нововведение — обучение моделей происходило с учётом инструментов, которые есть в ChatGPT. Они могут во время ответа искать данные в Интернете, писать код на Python для вычислений, генерировать графики или изображения — и всё это также встраивается в процесс «рассуждения».

Примечательно, что o3 чуть не осталась в лабораториях навсегда. Сэм Альтман, глава OpenAI, изначально планировал направить ресурсы на более продвинутую альтернативу, но, похоже, давление конкурентов — Google, Meta, Anthropic и других — вынудило компанию изменить курс.

Модель неплохо справляется с задачами, хотя на простые вопросы иногда может отвечать несколько десятков секунд. При этом обе модели активно убеждают пользователя в правильности своего ответа, даже когда сильно ошибаются. Почему? Потому что убеждают себя раз за разом во время «рассуждений», что правы, и по итогу не могут сказать «Я не знаю».

В ближайшие недели ожидается выход o3-pro — еще более мощной версии, использующей дополнительные вычислительные ресурсы. А в перспективе все эти наработки должны объединиться в GPT-5 – гибридную модель, которая соединит традиционные возможности с новыми функциями рассуждения. И вот она как раз выглядит наиболее перспективной — возможность использовать и встроенные инструменты, и рассуждения, и скорость ответа обычной модели — всё в рамках одного решения.