Сроки

  • 12 января — первое информационное письмо
  • 24 января — предоставление обучающей выборки
  • 21 февраля — предоставление тестовой выборки
  • 6 марта — подача результатов участниками
  • 12 марта — публикация результатов
  • 17 марта — сбор статей для публикации на сайте конференции «Диалог»
  • июнь — подведение итогов на конференции «Диалог»

Описание заданий

Общие замечания

Участники могут использовать данные, предоставленные организаторами, а также любые другие доступные им данные. При этом код участников и использованные ими внешние данные должны быть выложены в открытый доступ. Все файлы имеют кодировку UTF-8 (без маркера последовательности байтов).

1. Морфологический анализ

Участникам предлагается выделить лемму словоформы в контексте и определить грамматические метки. Оцениваться будет качество определения леммы и грамматических меток.

Входные данные

Предложения в формате Universal Dependencies, разделенные символом новой строки, с прочерками во всех столбцах, кроме FORM. Первые три символа в имени файла — код языка по Ethnologue.

Пример: файл evn.test.ud

_	nu	_	_	_	_	_	_	_	_
_	iduka	_	_	_	_	_	_	_	_
_	baldit͡ʃaːw	_	_	_	_	_	_	_	_
_	bi	_	_	_	_	_	_	_	_
_	mohaduː	_	_	_	_	_	_	_	_
_	aha	_	_	_	_	_	_	_	_

_	ďuwun	_	_	_	__	_	_	_
_	həgdiŋə	_	_	_	_	_	_	_	_
_	bit͡ʃoːn	_	_	_	_	_	_	_	_

Результат

должен быть предоставлен участником в формате, аналогичном формату размеченных данных для морфоанализа. В файле должны быть заполнены столбцы ID, FORM, LEMMA, UPOS, FEATS. Пример:

1	nu	nu	INTJ	_	_	_	_	_	_
2-3	iduka	_	_	_	_	_	_	_	_
2	idu	idu	ADV	_	_	_	_	_	_
3	ka	ka	PART	_	_	_	_	_	_
4	baldit͡ʃaːw	baldi	VERB	_	Mood=Ind|Number=Sing|Person=1|Tense=Past|VerbForm=Fin	_	_	_	_
5	bi	bi	PRON	_	Case=Nom|Number=Sing|Person=1|PronType=Prs	_	_	_	_
6	mohaduː	moha	NOUN	_	Case=Dat|Number=Sing	_	_	_	_
7	aha	aha	INTJ	_	_	_	_	_	_

1	ďuwun	ďu	NOUN	_	Case=Nom|Clusivity=Ex|Number=Sing|Poss=Yes|PossNumber=Plur|PossPerson=1	_	_	_	_
2	həgdiŋə	həgdiŋə	ADJ	_	_	_	_	_	_
3	bit͡ʃoːn	bi	VERB	_	Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin	_	_	_	_

Метрики

Для каждого файла, сданного участником, делается подсчет следующих метрик:

  • доля словоформ, в которых верно заполнен столбец LEMMA
  • доля предложений, в которых для всех словоформ верно заполнен столбец LEMMA
  • доля словоформ, в которых верно заполнен столбец UPOS
  • доля предложений, в которых для всех словоформ верно заполнен столбец UPOS
  • точность, полнота и F-мера для заполнения массива FEATS.

При сравнении UPOS значения PROPN и NOUN считаются равными друг другу. Словоформы с UPOS=X не принимают участия в сравнении.

2. Морфемная сегментация

Участникам предлагается разделить словоформу на морфемы. Оценивается качество деления на морфемы и отдельно приписывание тега морфеме.

Входные данные

Список словоформ, составляющих предложение. Каждая словоформа приведена на отдельной строке. Предложения разделены символом новой строки. Первые три символа в имени файла — код языка по Ethnologue. Пример: файл evn.test.morph

nu
iduka
baldit͡ʃaːw
bi
mohaduː

ďuwun
həgdiŋə
bit͡ʃoːn

Результат

Должен быть предоставлен участником в формате, аналогичном формату размеченных данных для морфемной сегментации с набором тегов для данного языка. Формат: слово, табуляция, список морфем, разделенных пробелом. Для каждой морфемы, кроме корневой, указывается тег. Пример:

nu	nu
iduka	idu ka
baldit͡ʃaːw	baldi t͡ʃaː_PST w_1SG
bi	bi
mohaduː	moha duː_DATLOC
aha	aha

ďuwun	ďu wun_PS1PL(EXCL)
həgdiŋə	həgdiŋə
bit͡ʃoːn	bi t͡ʃoː_PST n_3SG

Метрики

Для каждого файла, сданного участником, делается подсчет следующих метрик:

  • точность, полнота, F-мера установки границ морфем.
  • доля словоформ, корректно разделенных на морфемы
  • для корректно разделенных словоформ: точность, полнота, F-мера приписывания тегов морфемам

3. Синтез

Участникам предлагается по заданной лемме и набору грамматических меток сгенерировать словоформу. Оценивается качество генерации.

Входные данные

На каждой строке файла указаны через знак табуляции: лемма, UPOS (часть речи, см. пример в размеченных данных для морфоанализа), FEATS (морфологические свойства, см. пример в размеченных данных для морфоанализа). Первые три символа в имени файла — код языка по Ethnologue.Порядок словоформ в файле случаен. Пример: файл evn.test.syn

baldi	VERB	Mood=Ind|Number=Sing|Person=1|Tense=Past|VerbForm=Fin
ďu	NOUN	Case=Nom|Clusivity=Ex|Number=Sing|Poss=Yes|PossNumber=Plur|PossPerson=1

Результат

На каждой строке файла сгенерированная словоформа.

Пример:

baldit͡ʃaːw
ďuwun

Метрики

  • доля полностью корректно сгенерированных словоформ
  • усредненное расстояние Левенштейна между словоформой, предложенной участником, и правильным ответом

Скрипты оценки:

1. Морфологический анализ:

evaluation_ud.py

2. Морфемная сегментация:

evaluation_morph.py

3. Синтез:

evaluation_syn.py (требуется установка пакета python-Levenshtein — pip install python-Levenshtein)

Участники

Google-группа участников

Результаты

Статья организаторов