МегаФон показал лучшие результаты по скорости мобильного интернета МегаФон показал лучшие результаты по скорости мобильного интернета VK Реклама добавила новый рекламный формат в VK Клипы VK Реклама добавила новый рекламный формат в VK Клипы МТС добавила скорости LTE в Новоснежной и Выдрино МТС добавила скорости LTE в Новоснежной и Выдрино Разработчик Astra Linux подтвердил соответствие процессов разработки ПО новым требованиям ФСТЭК России Разработчик Astra Linux подтвердил соответствие процессов разработки ПО новым требованиям ФСТЭК России

MTS AI при поддержке Сколтеха разработал уникальный датасет для идентификации парафразов

🇷🇺 2 мин

NLP-исследователи MTS AI вместе со Сколтехом создали уникальный датасет RuPAWS, с помощью которого можно обучать и тестировать модели для индентификации парафразов.

Парафраз (или парафраза) — это пересказ исходного предложения другими словами. Их точная идентификация и соответствующие датасеты необходимы для обучения поисковых систем, языковых голосовых помощников, чат- и войс-ботов. Благодаря точному распознаванию парафразов, ИИ-помощники будут корректно отвечать пользователям приложений и веб-сервисов и предоставлять информацию, строго соответствующую их запросам.

Датасет RuPAWS состоит из 17 346 пар парафразов и содержит большое количество предложений, в которых много одинаковых слов, но смысл при этом разный. Это фразы наподобие «Может ли плохой человек стать хорошим?» и «Может ли хороший человек стать плохим?».
Человек легко понимает, что эти предложения не являются парафразами, но ML-модели, обученные на классических датасетах, могут ошибаться.

“От других русскоязычных датасетов RuPAWS отличается тем, что фокусируется на редких примерах парафразов, которые вызывают особые сложности при классификации — такой подход называют состязательными атаками (adversarial attacks) на системы машинного обучения”, — рассказал NLP-инженер MTS AI Никита Мартынов.

Первыми идею такого датасета предложили авторы PAWS, аналогичного датасета для английского языка. В его основе лежат тексты из социальных сетей и Википедии, поэтому собранные данные подходят для многих практических задач. RuPAWS представляет собой переведенный с помощью nmt (машинного перевода) и проверенный вручную PAWS.

Для русского языка уже существуют датасеты для классификации парафразов, но в них не хватает сложных примеров. Один из эталонных датасетов, ParaPhraser, близок по объёму (9 151 пар предложений), и успешно используется для обучения и тестирования моделей машинного обучения. Но даже SoTA (state-of-the-art) — решение для задачи классификации парафразов на русском языке, моноязычная адаптация BERT-a RuBERT — идентифицирует предложения с высоким пересечением слов как парафразы, когда они таковыми не являются.
Эта проблема решается с помощью датасета RuPAWS, показали исследования, проведенные в совместной лаборатории “МТС-Сколтех”.

“Эксперименты показали, что модель, обученная на данных из обоих датасетов, практически не теряет в качестве при классификации примеров из ParaPhraser, но при этом точность работы на сложных примерах возрастает почти в два раза, до 79%”, — сообщила Ирина Кротова, старший разработчик в группе NLP MTS AI.

Рассмотрим несколько примеров предложений с большим количеством одинаковых слов, но не тождественных по смыслу. Языковая модель, обученная на ParaPhraser, распознавала их как парафразы. Однако с точки зрения смысла это было неправильно. В свою очередь, если языковую модель обучали на двух датасетах — ParaPhraser и RuPAWS, она таких ошибок не допускала.

NLP-исследователи MTS AI Никита Мартынов и Ирина Кротова представят статью о новом языковом корпусе RuPAWS на одной из крупнейших международных конференций LREC 2022, которая пройдет в Марселе с 20 по 25 июня.