Зрение и руки Siri: Apple тестирует модель, которая управляет интерфейсом

Корпорации не теряют надежды сделать такой ИИ, который будет пользоваться привычными интерфейсами за человека, не требуя перестройки самих операционных систем. Apple старается не отставать от тренда и представила прототип Ferret-UI Lite — компактную модель на три 3 параметров, которая получает на вход скриншот и текстовую команду, а затем учится самостоятельно находить нужные элементы и нажимать кнопки, выполняя задачи пользователя. Всё это, по заявлениям компании, локально.

Чтобы заставить одновременно зрение и логику работать на мобильном железе, инженеры сделали упор на создание единой оптимизированной модели. Она обрабатывает скриншот, нарезая его на сетку ячеек, генерирует цепочку рассуждений и выдает конкретное действие по координатам — тап, свайп или ввод текста. Главное отличие от аналогов, которое и позволяет добиться большей эффективности — буквально использование лупы. Агент не сканирует весь экран, он сначала грубо предсказывает нужную зону, потом обрезает картинку вокруг неё и после приближения начинает планировать действия.

По результатам тестов модель справляется с точечным поиском конкретного элемента, обходя некоторые модели в 2 раза больше по параметрам. Однако если нужно сделать несколько шагов и кликов, эффективность падает. Ждать Ferret-UI Lite в ближайшем обновлении iOS, понятное дело, не стоит. А вот через несколько поколений вполне можно получить рабочий прототип. Зачем это нужно — не совсем понятно, но как минимум слабовидящим людям устройствами станет пользоваться проще.