Чтобы заставить одновременно зрение и логику работать на мобильном железе, инженеры сделали упор на создание единой оптимизированной модели. Она обрабатывает скриншот, нарезая его на сетку ячеек, генерирует цепочку рассуждений и выдает конкретное действие по координатам — тап, свайп или ввод текста. Главное отличие от аналогов, которое и позволяет добиться большей эффективности — буквально использование лупы. Агент не сканирует весь экран, он сначала грубо предсказывает нужную зону, потом обрезает картинку вокруг неё и после приближения начинает планировать действия.
По результатам тестов модель справляется с точечным поиском конкретного элемента, обходя некоторые модели в 2 раза больше по параметрам. Однако если нужно сделать несколько шагов и кликов, эффективность падает. Ждать Ferret-UI Lite в ближайшем обновлении iOS, понятное дело, не стоит. А вот через несколько поколений вполне можно получить рабочий прототип. Зачем это нужно — не совсем понятно, но как минимум слабовидящим людям устройствами станет пользоваться проще.