Нейросети Яндекса расшифровали рукописные архивы Московской области

Иллюстрация предоставлена пресс-службой Яндекса
Нейросети Яндекса расшифровали 300 000 страниц метрических книг из Центрального государственного архива Московской области. Документы XVIII — начала XX веков обработаны с помощью алгоритма, построенного на базе системы оптического распознавания символов. В оцифрованных файлах содержится в том числе множество записей о людях, живших в окрестностях Рязани, Тулы и Владимира. Теперь все они представлены в сервисе Поиск по архивам.

Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта и любых других слов. Он помогает историкам, генеалогам и обычным людям искать информацию о предках, родственниках и исторических личностях.

Кроме того, в базу сервиса вошли ещё 700 000 страниц документов из Главархива Москвы и впервые опубликованные в открытом доступе описи из архива Республики Мордовия (ЦГАРМ). Описи — это справочники, которые подсказывают в каких именно делах фонда находится информация с упоминанием конкретных населённых пунктов.

Яндекс запустил Поиск по архивам в январе 2023 года. За два месяца количество расшифрованных нейросетями компании страниц увеличилось вдвое: с 2,5 до 5 миллионов. Пользователи просмотрели уже более двух миллионов сканов с построчной расшифровкой. Помимо упомянутых хранилищ в Поиске по архивам доступны документы из Новгородской и Оренбургской областей.