В МТУСИ повысили производительность системы глубокой видеоаналитики PVision

Фото Pixabay/pexels.com (CC)
В секторе «Технологии искусственного интеллекта» МТУСИ под руководством Громова Максима ведутся научно-практические разработки в области глубокой видеоаналитики. Сотрудники в ходе своей работы постоянно улучшают качество продукта как по точности, так и по уменьшению вычислительной сложности.

Недавно в свет вышла новая нейросетевая архитектура YOLOv8, и, конечно, это не могло пройти мимо наших специалистов. Как известно YOLO хорошо себя зарекомендовала в области детектирования и классификации объектов на изображении. В YOLOv8 добавлена возможность сегментации объектов, а также повышена скорость работы.

YOLOv8 использует глубокую свёрточную нейронную сеть для извлечения признаков из изображений, а затем выполняет детектирование объектов, используя предсказания нейросети. Алгоритм также может быть дообучен на пользовательских данных, что позволяет улучшить его точность в конкретной области применения.

Для обучения YOLOv8 требуется два условия: во-первых — большие датасеты, во-вторых, как следствие, более мощные сервера. Со второй частью помогло справиться наличие в МТУСИ кластера серверов с графическими ускорителями NVIDIA TESLA A100. А в качестве набора данных использовался самый большой датасет из открытых источников — GrowdHuman. Так же был собран собственный датасет из видеоматериалов с более чем 100 камер, с разным уровнем освещенности, углом обзора и другими внешними факторами. В итоге получился датасет, состоящий более чем из 70000 объектов, которому дали название MTUCI.Human.

На таком большом датасете новая архитектура YOLOv8 была обучена впервые, что привело к значительному приросту точности детектирования (>97%) и классификации (>90%). Важно отметить, что тестирование проводилось в режиме реального времени на действующей системе видеонаблюдения (более 50 камер).

Обучению подвергались все модели YOLOv8: Nano, Small, Medium и Large. Это позволяет использовать модель начиная от простых IoT устройств с небольшими вычислителями до высокоточных, которые входят в состав программного комплекса PVision-SaaS. Таким образом, команде Громова Максима удалось повысить скорость и качество работы уже имеющихся сервисов по детектированию объектов, например распознавание средств индивидуальной защиты, определение марки и типа транспортного средства, определение пола и возраста людей, подсчет потока людей, автомобилей и других объектов.

В данный момент ведутся исследования применения данной модели для детектирования и распознавания объектов с помощью видеокамер, установленных на борту беспилотных летательных аппаратов.