Данные с морфологической разметкой

Язык Ссылка на массив Описание
эвенкийский evn.train.ud_20190304 Материалы сайта «Малые языки Сибири» Внимание: используется МФА
селькупский sel.train.ud_20190213 Материалы корпуса INEL1 Конверсия в формат соревнования выполнена нами
вепсский vep.train.ud_20190216 Материалы сайта «Открытый корпус вепсского и карельского языков»2
карельский (собственно карельское наречие) krl.train.ud_20190216 Материалы сайта «Открытый корпус вепсского и карельского языков»2
карельский (ливвиковское наречие) olo.train.ud_20190216 Материалы сайта «Открытый корпус вепсского и карельского языков»2
карельский (людиковское наречие) lud.train.ud_20190216 Материалы сайта «Открытый корпус вепсского и карельского языков»2

Данные с морфемной сегментацией

  • Описание схемы разметки: [словоформа][табуляция][пары морфема_тег, разделенные символом «пробел»]
Язык Ссылка на массив Описание
эвенкийский evn.train.morph_20190123 Материалы сайта «Малые языки Сибири» Внимание: используется МФА
селькупский sel.train.morph_20190213 Материалы корпуса INEL1 Конверсия в формат соревнования выполнена нами

Неразмеченные данные

Мы публикуем неразмеченные данные, которые могут пригодиться участникам для улучшения алгоритмов

Язык Ссылка на массив Описание
эвенкийский evn_ev_zhizn_2002_2010.zip Материалы газеты «Эвенкийская жизнь» 2002—2010. Внимание: используется кириллическая орфография

Условные обозначения

Список глосс (эвенкийский)

Тестовые данные

Язык Ссылка на массив Описание
эвенкийский evn.test.ud_20190223 Морфоанализ
эвенкийский evn.test.morph Морфемная сегментация
эвенкийский evn.test.syn_20190403 Синтез
селькупский sel.test.ud_20190403 Морфоанализ
селькупский sel.test.morph Морфемная сегментация
селькупский sel.test.syn Синтез
вепсский vep.test.ud_20190403 Морфоанализ
вепсский vep.test.morph_20190403 Морфемная сегментация
вепсский vep.test.syn_20190403 Синтез
карельский (собственно карельское наречие) krl.test.ud_20190403 Морфоанализ
карельский (собственно карельское наречие) krl.test.morph_20190403 Морфемная сегментация
карельский (собственно карельское наречие) krl.test.syn Синтез
карельский (ливвиковское наречие) olo.test.ud_20190403 Морфоанализ
карельский (ливвиковское наречие) olo.test.morph_20190403 Морфемная сегментация
карельский (ливвиковское наречие) olo.test.syn_20190403 Синтез
карельский (людиковское наречие) lud.test.ud Морфоанализ
карельский (людиковское наречие) lud.test.morph Морфемная сегментация
карельский (людиковское наречие) lud.test.syn Синтез

Ссылки на источники

1. Селькупский язык

Brykina, Maria; Orlova, Svetlana; Wagner-Nagy, Beáta. 2018.
INEL Selkup Corpus. Version 0.1. Publication date 2018-12-31.
Archived in Hamburger Zentrum für Sprachkorpora http://hdl.handle.net/11022/0000-0007-CAE5-3.
In: Wagner-Nagy, Beáta; Arkhipov, Alexandre; Ferger, Anne; Jettka, Daniel; Lehmberg, Timm (eds.). 2018.
The INEL corpora of indigenous Northern Eurasian languages.

2. Вепсский и карельский языки

Зайцева Н.Г., Крижановский А.А., Крижановская Н.Б., Пеллинен Н.А., Родионова А.П.
Открытый корпус вепсского и карельского языков (ВепКар):
предварительный отбор материалов и словарная часть системы //
Труды международной конференции «Корпусная лингвистика ‒ 2017». ‒
СПб., 2017. С. 172-177.

Лицензия

Данные селькупского языка распространяются по лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0

Данные вепсского и карельского языков распространяются по лицензии Attribution 4.0 International (CC BY 4.0)