МИФИ собрал систему для анализа научных данных МИФИ собрал систему для анализа научных данных Amazon продал подписку дважды Amazon продал подписку дважды Пекин отвечает Пентагону его же оружием Пекин отвечает Пентагону его же оружием Google научилась генерировать видео на основе панорам с улиц Google научилась генерировать видео на основе панорам с улиц

Компания «Теком» работает над обнаружением ненормативной лексики в медиаконтенте

🇷🇺 1 мин

Компания «Теком», представила решение по обнаружению бранных слов в медиаконтенте. В основе работы программы лежит нейросеть, предварительно обученная на определенном языковом материале. В словарь для обучения вошли основные корни нецензурных слов из списка Роскомнадзора и образованные от них лексические единицы. В качестве результата проверки пользователь получает размеченный txt-файл с конкретными словами и соответствующими им таймкодами. Также доступна расширенная версия отчета, в котором нецензурное слово дано вместе с речевым контекстом. Помимо обнаружения запрещенной лексики Profanity Finder может маскировать мат, заменяя его на звуковой сигнал.

На данный момент точность обнаружения слов из базового лексического набора с помощью Profanity Finder составляет 94%. Кроме предустановленного словаря в решении реализован пользовательский словарь. Данная функция позволяет добавлять актуальные для пользователя лексические единицы, которые необходимо детектировать дополнительно.

Profanity Finder поддерживает проверку видеофайлов в форматах MP4, M4A, 3GP. Предусматривается дальнейшее увеличение числа доступных для анализа форматов контента. Решение от компании «Теком» анализирует видео на наличие запрещенных слов в три раза быстрее реального времени.

Напомним, что с 2014 года в России действует закон, запрещающий употребление мата при публичном исполнении произведений искусства, в том числе фильмов, театральных постановок, развлекательных шоу. Годом ранее такой же запрет коснулся средств массовой информации. За производство и распространение контента, содержащего нецензурную лексику, грозит административная ответственность. Продукция, выпущенная до вступления закона в силу, подлежит дополнительной проверке с целью удаления или маскировки мата.

«Теком» также начал активную работу над поиском звуковых упоминаний и визуальных образов сервисов Meta, поскольку с марта 2022 года деятельность холдинга на территории России считается незаконной. Это поможет медиакомпаниям обнаружить и скрыть из контента логотипы социальных сетей Facebook и Instagram.