Данные
- Данные с морфологической разметкой
- Данные с морфемной сегментацией
- Неразмеченные данные
- Условные обозначения
- Тестовые данные
- Ссылки на источники
- Лицензия
Данные с морфологической разметкой
- Описание схемы разметки: Universal Dependencies
| Язык | Ссылка на массив | Описание |
|---|---|---|
| эвенкийский | evn.train.ud_20190304 | Материалы сайта «Малые языки Сибири» Внимание: используется МФА |
| селькупский | sel.train.ud_20190213 | Материалы корпуса INEL1 Конверсия в формат соревнования выполнена нами |
| вепсский | vep.train.ud_20190216 | Материалы сайта «Открытый корпус вепсского и карельского языков»2 |
| карельский (собственно карельское наречие) | krl.train.ud_20190216 | Материалы сайта «Открытый корпус вепсского и карельского языков»2 |
| карельский (ливвиковское наречие) | olo.train.ud_20190216 | Материалы сайта «Открытый корпус вепсского и карельского языков»2 |
| карельский (людиковское наречие) | lud.train.ud_20190216 | Материалы сайта «Открытый корпус вепсского и карельского языков»2 |
Данные с морфемной сегментацией
- Описание схемы разметки: [словоформа][табуляция][пары морфема_тег, разделенные символом «пробел»]
| Язык | Ссылка на массив | Описание |
|---|---|---|
| эвенкийский | evn.train.morph_20190123 | Материалы сайта «Малые языки Сибири» Внимание: используется МФА |
| селькупский | sel.train.morph_20190213 | Материалы корпуса INEL1 Конверсия в формат соревнования выполнена нами |
Неразмеченные данные
Мы публикуем неразмеченные данные, которые могут пригодиться участникам для улучшения алгоритмов
| Язык | Ссылка на массив | Описание |
|---|---|---|
| эвенкийский | evn_ev_zhizn_2002_2010.zip | Материалы газеты «Эвенкийская жизнь» 2002—2010. Внимание: используется кириллическая орфография |
Условные обозначения
Тестовые данные
| Язык | Ссылка на массив | Описание |
|---|---|---|
| эвенкийский | evn.test.ud_20190223 | Морфоанализ |
| эвенкийский | evn.test.morph | Морфемная сегментация |
| эвенкийский | evn.test.syn_20190403 | Синтез |
| селькупский | sel.test.ud_20190403 | Морфоанализ |
| селькупский | sel.test.morph | Морфемная сегментация |
| селькупский | sel.test.syn | Синтез |
| вепсский | vep.test.ud_20190403 | Морфоанализ |
| вепсский | vep.test.morph_20190403 | Морфемная сегментация |
| вепсский | vep.test.syn_20190403 | Синтез |
| карельский (собственно карельское наречие) | krl.test.ud_20190403 | Морфоанализ |
| карельский (собственно карельское наречие) | krl.test.morph_20190403 | Морфемная сегментация |
| карельский (собственно карельское наречие) | krl.test.syn | Синтез |
| карельский (ливвиковское наречие) | olo.test.ud_20190403 | Морфоанализ |
| карельский (ливвиковское наречие) | olo.test.morph_20190403 | Морфемная сегментация |
| карельский (ливвиковское наречие) | olo.test.syn_20190403 | Синтез |
| карельский (людиковское наречие) | lud.test.ud | Морфоанализ |
| карельский (людиковское наречие) | lud.test.morph | Морфемная сегментация |
| карельский (людиковское наречие) | lud.test.syn | Синтез |
Ссылки на источники
1. Селькупский язык
Brykina, Maria; Orlova, Svetlana; Wagner-Nagy, Beáta. 2018.
INEL Selkup Corpus. Version 0.1. Publication date 2018-12-31.
Archived in Hamburger Zentrum für Sprachkorpora http://hdl.handle.net/11022/0000-0007-CAE5-3.
In: Wagner-Nagy, Beáta; Arkhipov, Alexandre; Ferger, Anne; Jettka, Daniel; Lehmberg, Timm (eds.). 2018.
The INEL corpora of indigenous Northern Eurasian languages.
2. Вепсский и карельский языки
Зайцева Н.Г., Крижановский А.А., Крижановская Н.Б., Пеллинен Н.А., Родионова А.П.
Открытый корпус вепсского и карельского языков (ВепКар):
предварительный отбор материалов и словарная часть системы //
Труды международной конференции «Корпусная лингвистика ‒ 2017». ‒
СПб., 2017. С. 172-177.
Лицензия
Данные селькупского языка распространяются по лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0
Данные вепсского и карельского языков распространяются по лицензии Attribution 4.0 International (CC BY 4.0)