Content-Review.com

DeepSeek научил ИИ показывать пальцем

Исследователи из DeepSeek совместно с учеными Пекинского университета и Университета Цинхуа предложили новый подход к зрению искусственного интеллекта под названием Thinking with Visual Primitives. Вместо того чтобы просить нейросеть описывать сложную картинку словами и строить длинные словесные цепочки рассуждений, её научили указывать на нужные детали виртуальным пальцем. Этот метод копирует естественное поведение человека: когда ребёнок учится считать предметы или взрослый проходит лабиринт, он рефлекторно ведёт пальцем от объекта к объекту.

Большинство современных мультимодальных систем пытаются улучшить качество распознавания за счёт увеличения разрешения картинок и их нарезки на мелкие фрагменты, что перегружает контекст и память модели. Новый подход использует простые координатные маркеры двух видов: рамки для выделения границ отдельных объектов и последовательности точек для отслеживания траекторий. Модель учится самостоятельно генерировать эти маркеры во время логических шагов, благодаря чему она тратит на обработку картинки до 90% меньше вычислений.

Такой способ упрощает создание ИИ-агентов, способных управлять интерфейсами программ, ориентироваться в чертежах и контролировать производство. Модели становится проще находить нужные элементы на экранах смартфонов или компьютеров, поскольку её действия привязаны к конкретным пикселям. В логистике и ритейле технология автоматизирует пересчет товаров на полках и складах, а инженерам поможет быстро разбирать сложные электрические и гидравлические схемы, на которых необходимо проследить путь от одного контакта до другого. Учитывая недавний анонс собственного агентного конкурента Claude Code от DeepSeek, имплементацию техники можем увидеть очень скоро.

//