Состав и структура национального корпуса русского языка

Глубоко аннотированный (синтаксический) корпус
Данный фрагмент Национального корпуса русского языка содержит тексты, снабженные морфо-синтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура.

Корпус параллельных текстов
Особым типом корпуса является так называемый параллельный корпус, в котором тексту на русском языке сопоставлен перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык. Между единицами оригинального и переводного текста (обычно — между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выравненными.

Основной корпус текстов
Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим массивам ведется одновременно, задать хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.

Корпус диалектных текстов
Корпус диалектных текстов (открылся в 2005 г.) включает записи диалектной речи в орфографии, приближенной к стандартной. Полностью сохранена морфологическая, синтаксическая и лексическая специфика. Имеются специальные пометы для диалектной морфологии (в том числе явлений, отсутствующих в литературном языке), кроме того, толкованиями снабжаются чисто диалектные лексемы.

Акцентологический корпус
Акцентологический корпус (корпус истории русского ударения) (открылся в 2008 г.) включает тексты, несущие информацию об истории русского ударения. Во-первых, это все тексты поэтического корпуса, где в силлабо-тонических, а отчасти и в чисто тонических, текстах содержится информация (требующая дополнительной интерпретации) о месте ударения в слове. Во-вторых, это акцентуированные (в соответствии с реально звучащим ударением) записи устной речи, в том числе кинофильмов. Эти тексты доступны для поиска по месту ударения и просодической структуре слова.

Газетный корпус (корпус современных СМИ)
Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств массовой информации 2000-х годов. Значительные объемы текстов СМИ, доступные в электронном виде и представляющие большой интерес для изучения языковых изменений "в режиме реального времени", не могут быть полностью включены в основной корпус, поскольку нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса такого ограничения нет; по объему он сопоставим с основным.

Корпус поэтических текстов
Корпус поэтических текстов (открылся в 2006 г.) включает стихотворные произведения от XVIII в. до современности. Помимо обычной семантической и морфологической разметки (как в корпусе с неснятой омонимией), предусмотрена специальная стиховедческая. Возможен поиск текстов, написанных амфибрахием, тоническими размерами, пятистишиями, вольной рифмовкой, твердыми формами и т.п.

Мультимедийный корпус
Мультимедийный русский корпус (открылся в декабре 2010 г.) включает фрагменты кинофильмов 1930-2000?х годов. Они представлены в виде параллельных видеоряда, аудиоряда и текстовой расшифровки звучащей речи, а также наблюдаемых в кадре жестов. В мультимедийном корпусе возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т.п.) и типу речевого действия (согласие, ирония и т.п.). В поисковой выдаче видеофрагменты доступны для просмотра и прослушивания.

Корпус устной речи
Корпус устной речи (как самостоятельный корпус существует с 2007 г.) включает в себя расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Включены тексты самых разных жанров и типов, разного происхождения с точки зрения географии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.). Хронологический охват корпуса 1900-2000?е гг.

Обучающий корпус русского языка
Обучающий корпус русского языка (открылся в 2007 г.) — небольшой корпус со снятой омонимией, ориентированный на преподавание русского языка в школе (отобраны произведения из школьной программы изучаемых в школьном курсе функциональных стилей, размечены словоизменительные типы и другие дополнительные морфологические признаки).

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...