Оценка морфологических анализаторов
Сроки
- 12 января — первое информационное письмо
- 24 января — предоставление обучающей выборки
- 21 февраля — предоставление тестовой выборки
- 6 марта — подача результатов участниками
- 12 марта — публикация результатов
- 17 марта — сбор статей для публикации на сайте конференции «Диалог»
- июнь — подведение итогов на конференции «Диалог»
Описание заданий
Общие замечания
Участники могут использовать данные, предоставленные организаторами, а также любые другие доступные им данные. При этом код участников и использованные ими внешние данные должны быть выложены в открытый доступ. Все файлы имеют кодировку UTF-8 (без маркера последовательности байтов).
1. Морфологический анализ
Участникам предлагается выделить лемму словоформы в контексте и определить грамматические метки. Оцениваться будет качество определения леммы и грамматических меток.
Входные данные
Предложения в формате Universal Dependencies, разделенные символом новой строки, с прочерками во всех столбцах, кроме FORM. Первые три символа в имени файла — код языка по Ethnologue.
Пример: файл evn.test.ud
_ nu _ _ _ _ _ _ _ _
_ iduka _ _ _ _ _ _ _ _
_ baldit͡ʃaːw _ _ _ _ _ _ _ _
_ bi _ _ _ _ _ _ _ _
_ mohaduː _ _ _ _ _ _ _ _
_ aha _ _ _ _ _ _ _ _
_ ďuwun _ _ _ __ _ _ _
_ həgdiŋə _ _ _ _ _ _ _ _
_ bit͡ʃoːn _ _ _ _ _ _ _ _
Результат
должен быть предоставлен участником в формате, аналогичном формату размеченных данных для морфоанализа. В файле должны быть заполнены столбцы ID, FORM, LEMMA, UPOS, FEATS. Пример:
1 nu nu INTJ _ _ _ _ _ _
2-3 iduka _ _ _ _ _ _ _ _
2 idu idu ADV _ _ _ _ _ _
3 ka ka PART _ _ _ _ _ _
4 baldit͡ʃaːw baldi VERB _ Mood=Ind|Number=Sing|Person=1|Tense=Past|VerbForm=Fin _ _ _ _
5 bi bi PRON _ Case=Nom|Number=Sing|Person=1|PronType=Prs _ _ _ _
6 mohaduː moha NOUN _ Case=Dat|Number=Sing _ _ _ _
7 aha aha INTJ _ _ _ _ _ _
1 ďuwun ďu NOUN _ Case=Nom|Clusivity=Ex|Number=Sing|Poss=Yes|PossNumber=Plur|PossPerson=1 _ _ _ _
2 həgdiŋə həgdiŋə ADJ _ _ _ _ _ _
3 bit͡ʃoːn bi VERB _ Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin _ _ _ _
Метрики
Для каждого файла, сданного участником, делается подсчет следующих метрик:
- доля словоформ, в которых верно заполнен столбец LEMMA
- доля предложений, в которых для всех словоформ верно заполнен столбец LEMMA
- доля словоформ, в которых верно заполнен столбец UPOS
- доля предложений, в которых для всех словоформ верно заполнен столбец UPOS
- точность, полнота и F-мера для заполнения массива FEATS.
При сравнении UPOS значения PROPN и NOUN считаются равными друг другу. Словоформы с UPOS=X не принимают участия в сравнении.
2. Морфемная сегментация
Участникам предлагается разделить словоформу на морфемы. Оценивается качество деления на морфемы и отдельно приписывание тега морфеме.
Входные данные
Список словоформ, составляющих предложение. Каждая словоформа приведена на отдельной строке. Предложения разделены символом новой строки. Первые три символа в имени файла — код языка по Ethnologue. Пример: файл evn.test.morph
nu
iduka
baldit͡ʃaːw
bi
mohaduː
ďuwun
həgdiŋə
bit͡ʃoːn
Результат
Должен быть предоставлен участником в формате, аналогичном формату размеченных данных для морфемной сегментации с набором тегов для данного языка. Формат: слово, табуляция, список морфем, разделенных пробелом. Для каждой морфемы, кроме корневой, указывается тег. Пример:
nu nu
iduka idu ka
baldit͡ʃaːw baldi t͡ʃaː_PST w_1SG
bi bi
mohaduː moha duː_DATLOC
aha aha
ďuwun ďu wun_PS1PL(EXCL)
həgdiŋə həgdiŋə
bit͡ʃoːn bi t͡ʃoː_PST n_3SG
Метрики
Для каждого файла, сданного участником, делается подсчет следующих метрик:
- точность, полнота, F-мера установки границ морфем.
- доля словоформ, корректно разделенных на морфемы
- для корректно разделенных словоформ: точность, полнота, F-мера приписывания тегов морфемам
3. Синтез
Участникам предлагается по заданной лемме и набору грамматических меток сгенерировать словоформу. Оценивается качество генерации.
Входные данные
На каждой строке файла указаны через знак табуляции: лемма, UPOS (часть речи, см. пример в размеченных данных для морфоанализа), FEATS (морфологические свойства, см. пример в размеченных данных для морфоанализа). Первые три символа в имени файла — код языка по Ethnologue.Порядок словоформ в файле случаен. Пример: файл evn.test.syn
baldi VERB Mood=Ind|Number=Sing|Person=1|Tense=Past|VerbForm=Fin
ďu NOUN Case=Nom|Clusivity=Ex|Number=Sing|Poss=Yes|PossNumber=Plur|PossPerson=1
Результат
На каждой строке файла сгенерированная словоформа.
Пример:
baldit͡ʃaːw
ďuwun
Метрики
- доля полностью корректно сгенерированных словоформ
- усредненное расстояние Левенштейна между словоформой, предложенной участником, и правильным ответом
Скрипты оценки:
1. Морфологический анализ:
2. Морфемная сегментация:
3. Синтез:
evaluation_syn.py (требуется установка пакета python-Levenshtein — pip install python-Levenshtein)