«Яндекс» научил нейросети расшифровывать записи с дореволюционной орфографией
«Яндекс» занялся расшифровкой архивных рукописных документов с помощью нейросетей. Алгоритм оптического распознавания символов учитывает особенности почерка, вышедшие из употребления буквы, а также понимает структуру архивных записей.
Сейчас с помощью функции «Поиск по архивам» можно прочитать свыше 2,5 млн страниц исторических документов с текстовой расшифровкой. Проводить поиск можно с упоминанием фамилии, населенного пункта или любых других слов. Документы можно искать по каталогам или через строку поиска. Доступны фильтры по годам, фондам, архивам и описям. На странице рядом со сканом отображается построчная расшифровка от нейросетей «Яндекса». При наведении на фрагмент текста он подсветится и на цифровой копии.
Обучение нейросетей происходило на основе базы данных из сотен тысяч рукописных строк из текстов XVII–XIX веков под руководством экспертов. Как заявляют в «Яндексе», благодаря работе нейросетей нечитаемый для неподготовленного человека текст почти мгновенно превращается в печатный документ. Первым фондом, представленным в сервисе, стал Главархив Москвы — по его материалам и обучалась нейросеть. Также в базе есть документы Оренбургской и Новгородской областей. Планируется, что в будущем количество доступных отсканированных файлов и хранилищ будет увеличиваться.