
Некоторое время назад у OpenAI вышел Operator — амбициозный и бесполезный сервис, который призван решать в Интернете важные задачи вместо пользователя. Нужно заказать столик в ресторане? Написали детали чат-боту, а он сам пойдёт на сайт и выполнит все необходимые шаги. Такие удивительные возможности — и всего за 200 долларов в месяц.
Manus же стал китайской копией Operator от OpenAI: это такой же агент, который запускается на удалённом сервере с линуксом, ходит за пользователя на сайты и пытается выполнять там какие-то действия. Судить о работе пока можно только по отобранным примерам с сайта компании — сервис работает по приглашению, и на нашу заявку на получение доступа никто не ответил.
У всех подобных сервисов есть несколько фундаментальных проблем:
пользователь арендует удалённый сервер, передавая свои чувствительные данные третьим лицам
на этом сервере работает ИИ-модель, с трудом понимающая, что она делает
этот ИИ, как слепой котёнок, идёт по первым ссылкам из поисковой выдачи.
Он кликает на кнопки, ошибается, пробует снова — и изо всех сил пытается выполнить действия, на которые у пользователя уйдут несколько минут. Ещё и совершая ошибки в процессе.
Более того, сам сервис требует постоянного контроля — нужно оставаться на связи, авторизовываться, отвечать на уточняющие вопросы. И ради чего? Бронь авиабилета ему всё равно не доверить, потому что нужно несколько раз перепроверить введённые данные, добавить ID бонусной программы и подтвердить транзакцию. Поиск информации и работа с документами давно уже есть в Perplexity и подобных сервисах, которые делают то же самое быстрее и понятнее.
Пока Manus, Operator, Computer Use от Claude, UI-TARS от Bytedance, Proxy от Convergence и так далее — просто proof of concept, технические демо-версии, которые сделаны скорее с исследовательскими целями. Пишут про них не потому, что «появился новый полезный продукт», а потому что «хайп».
Гораздо более логичным выглядит подход Perplexity, Яндекса и Google, которые работают не с интерфейсом виртуального браузера, а с полученными напрямую (по API или через парсинг) данными. В случае Яндекса и Google — ещё и в рамках собственной экосистемы, где они могут наладить бесшовный обмен данными между разными сервисами, обеспечив как раз возможность и покупать билеты, и арендовать столики в ресторанах, и заказывать еду. И если здесь видно будущее развитие агентов, то у сервисов, которые пользуются виртуальным браузером и симулируют поведение людей, оно пока туманное.