Яндекс открывает архивы

Иллюстрация предоставлена пресс-службой Яндекса

У Яндекса появился поиск по архивам — рукописным историческим документам из архивов. На данный момент поиск осуществляется по 2,5 миллиона документов архивов Москвы, Оренбуржской и Новгородской областей включая метрические киниг, ревизские сказки и исповедные ведомости. Конечно, было бы интересно почитать совсем иные архивы, но пока вот так. По большому счету на данном этапе поиск этот больше интересен тем, кто любит искать родственников и строить свои генеалогические деревья.

Нас же больше заинтересовала сама технология, ведь рукописные книги какого-нибудь 18-го века — это не сегодняшние записи, изменилось и написание, и язык был, мягко сказать, иным. Как говорил Шелдон Купер, вот вам fun fact: в большинстве случаев когда нас просят ввести каптчу на сайтах, нас заставляют обучать нейросеть. И вот когда вас просят ввести два слова, которые написаны какими-то корявыми буквами, это вас просят помочь обучить нейросетку расшифровывать старые тексты.

В Яндексе подошли к процессу иначе. Нейросеть обучали внутри компании на массиве рукописных строк из реальных текстов. Размечали и расшифровывали эти материалы эксперты, они же контролировали качество распознавания. Возможно поэтому проект развивается не так быстро — слишком большое внимание уделяется качеству, а не количеству.

Поискать родственников и других людей в глубоком прошлом можно тут, а в комментариях ждем вашей оценки — удалось ли кого-то найти. Мы вот сходу нашли 82 Козявкиных.