25.01.2023, 10:05

«Яндекс» научил нейросети расшифровывать записи с дореволюционной орфографией

«Яндекс» занялся расшифровкой архивных рукописных документов с помощью нейросетей. Алгоритм оптического распознавания символов учитывает особенности почерка, вышедшие из употребления буквы, а также понимает структуру архивных записей.

Сейчас с помощью функции «Поиск по архивам» можно прочитать свыше 2,5 млн страниц исторических документов с текстовой расшифровкой. Проводить поиск можно с упоминанием фамилии, населенного пункта или любых других слов. Документы можно искать по каталогам или через строку поиска. Доступны фильтры по годам, фондам, архивам и описям. На странице рядом со сканом отображается построчная расшифровка от нейросетей «Яндекса». При наведении на фрагмент текста он подсветится и на цифровой копии.

Обучение нейросетей происходило на основе базы данных из сотен тысяч рукописных строк из текстов XVII–XIX веков под руководством экспертов. Как заявляют в «Яндексе», благодаря работе нейросетей нечитаемый для неподготовленного человека текст почти мгновенно превращается в печатный документ. Первым фондом, представленным в сервисе, стал Главархив Москвы — по его материалам и обучалась нейросеть. Также в базе есть документы Оренбургской и Новгородской областей. Планируется, что в будущем количество доступных отсканированных файлов и хранилищ будет увеличиваться.

Евгений Федуненко

Новости компаний Все

Меню сайта

«Коммерсантъ» для Android

«Яндекс» научил нейросети расшифровывать записи с дореволюционной орфографией

16.04.2026

АО «ТБАНК»

Минцифры России и Центральный университет объявили о партнерстве

15.04.2026

АО АКБ «НОВИКОМБАНК»

НОВИКОМ утвердил стратегию развития до 2036 года

15.04.2026

ПАО ДОМ.РФ

ДОМ.РФ: регионам необходимо активнее включиться в работу по восстановлению ОКН

15.04.2026

АО «ТБАНК»

В Центральном университете стартовал заключительный этап ВсОШ по математике

Лента