Обычно для защиты от «ложных» лиц разработчики используют системы с внешними датчиками электронных устройств либо анализируют видеоотрывок с лицом, его окружением. Студенты МИСИС создали технологию с использованием методов машинного обучения, которую проще внедрить и которая не требует дополнительного железа. В основе — две популярные и уже предобученные нейросети. В итоге получилась кастомизированнвя версия: проверка фото происходит в веб-приложении, также можно провести анализ в реальном времени через камеру компьютера.
Авторы проекта использовали набор данных из 16500 изображений. Речь идет о подлинных и фейковых фото с примерно равномерным распределением по типам обмана систем распознавания лиц: с помощью печатных фотографий и изображений на экранах электронных устройств, масок и персонажей мультфильмов. Также студентки сами напечатали фотографии людей с различными внешними признаками, сделали их «ложные» изображения и добавили в выборку.
На первом этапе распознавания лица используется предобученная нейронная сеть MTCNN. Разработчики часто используют ее для идентификации лиц, определения пола и возраста по фото. Она определяет положение лица на картинке. Затем на изображение добавляется специальное поле, 60% его площади составляет анализируемое лицо. Такое приближение дает значительный прирост в точности, уверяют авторы. Дальше сеть InceptionResnet дает числовые представления особенностей лица.
На втором этапе несколько слоев нейронной сети отбирают признаки изображения. Результаты двух этапов объединяются, проходят через несколько финальных слоев для получения окончательного вывода о подлинности изображения. Разработка сделана по заказу VK. Проект занял первое место на хакатоне InnoGlobalHack.
В свое время фейки сильно обеспокоили компании и СМИ, поэтому в России уже есть похожие проекты. Например, компания VIEN в 2020 году разработала на основе нейросети сервис Fake Video Detection Service. Он позволяет быстро находить на видео признаки технологий deepfake с точностью более 90%. В этом году аналогичную систему представила VisionLabs, точность варьируется от 92% до 100%.