Данные
- Данные с морфологической разметкой
- Данные с морфемной сегментацией
- Неразмеченные данные
- Условные обозначения
- Тестовые данные
- Ссылки на источники
- Лицензия
Данные с морфологической разметкой
- Описание схемы разметки: Universal Dependencies
Язык | Ссылка на массив | Описание |
---|---|---|
эвенкийский | evn.train.ud_20190304 | Материалы сайта «Малые языки Сибири» Внимание: используется МФА |
селькупский | sel.train.ud_20190213 | Материалы корпуса INEL1 Конверсия в формат соревнования выполнена нами |
вепсский | vep.train.ud_20190216 | Материалы сайта «Открытый корпус вепсского и карельского языков»2 |
карельский (собственно карельское наречие) | krl.train.ud_20190216 | Материалы сайта «Открытый корпус вепсского и карельского языков»2 |
карельский (ливвиковское наречие) | olo.train.ud_20190216 | Материалы сайта «Открытый корпус вепсского и карельского языков»2 |
карельский (людиковское наречие) | lud.train.ud_20190216 | Материалы сайта «Открытый корпус вепсского и карельского языков»2 |
Данные с морфемной сегментацией
- Описание схемы разметки: [словоформа][табуляция][пары морфема_тег, разделенные символом «пробел»]
Язык | Ссылка на массив | Описание |
---|---|---|
эвенкийский | evn.train.morph_20190123 | Материалы сайта «Малые языки Сибири» Внимание: используется МФА |
селькупский | sel.train.morph_20190213 | Материалы корпуса INEL1 Конверсия в формат соревнования выполнена нами |
Неразмеченные данные
Мы публикуем неразмеченные данные, которые могут пригодиться участникам для улучшения алгоритмов
Язык | Ссылка на массив | Описание |
---|---|---|
эвенкийский | evn_ev_zhizn_2002_2010.zip | Материалы газеты «Эвенкийская жизнь» 2002—2010. Внимание: используется кириллическая орфография |
Условные обозначения
Тестовые данные
Язык | Ссылка на массив | Описание |
---|---|---|
эвенкийский | evn.test.ud_20190223 | Морфоанализ |
эвенкийский | evn.test.morph | Морфемная сегментация |
эвенкийский | evn.test.syn_20190403 | Синтез |
селькупский | sel.test.ud_20190403 | Морфоанализ |
селькупский | sel.test.morph | Морфемная сегментация |
селькупский | sel.test.syn | Синтез |
вепсский | vep.test.ud_20190403 | Морфоанализ |
вепсский | vep.test.morph_20190403 | Морфемная сегментация |
вепсский | vep.test.syn_20190403 | Синтез |
карельский (собственно карельское наречие) | krl.test.ud_20190403 | Морфоанализ |
карельский (собственно карельское наречие) | krl.test.morph_20190403 | Морфемная сегментация |
карельский (собственно карельское наречие) | krl.test.syn | Синтез |
карельский (ливвиковское наречие) | olo.test.ud_20190403 | Морфоанализ |
карельский (ливвиковское наречие) | olo.test.morph_20190403 | Морфемная сегментация |
карельский (ливвиковское наречие) | olo.test.syn_20190403 | Синтез |
карельский (людиковское наречие) | lud.test.ud | Морфоанализ |
карельский (людиковское наречие) | lud.test.morph | Морфемная сегментация |
карельский (людиковское наречие) | lud.test.syn | Синтез |
Ссылки на источники
1. Селькупский язык
Brykina, Maria; Orlova, Svetlana; Wagner-Nagy, Beáta. 2018.
INEL Selkup Corpus. Version 0.1. Publication date 2018-12-31.
Archived in Hamburger Zentrum für Sprachkorpora http://hdl.handle.net/11022/0000-0007-CAE5-3.
In: Wagner-Nagy, Beáta; Arkhipov, Alexandre; Ferger, Anne; Jettka, Daniel; Lehmberg, Timm (eds.). 2018.
The INEL corpora of indigenous Northern Eurasian languages.
2. Вепсский и карельский языки
Зайцева Н.Г., Крижановский А.А., Крижановская Н.Б., Пеллинен Н.А., Родионова А.П.
Открытый корпус вепсского и карельского языков (ВепКар):
предварительный отбор материалов и словарная часть системы //
Труды международной конференции «Корпусная лингвистика ‒ 2017». ‒
СПб., 2017. С. 172-177.
Лицензия
Данные селькупского языка распространяются по лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0
Данные вепсского и карельского языков распространяются по лицензии Attribution 4.0 International (CC BY 4.0)