Оценка качества обработки речи
Сроки
- 25 февраля — предоставление обучающей выборки
- 10 марта — предоставление тестовой выборки
- 20 марта — подача результатов участниками
- 23 марта — публикация результатов
- 30 марта — сбор статей для публикации
Описание заданий
Общие замечания
Участники могут использовать данные проекта Lingvodoc, предоставленные организаторами, а также любые другие доступные им данные. При этом код участников и использованные ими внешние данные должны быть выложены в открытый доступ. Все файлы имеют кодировку UTF-8 (без маркера последовательности байтов). Каждый участник может подать максимум 3 файла на одно задание.
Входные данные
Наборы данных можно увидеть на странице: Данные по ASR
Файл, в котором перечислены:
- идентификатор, соответствующий записи
- текст транскрипции/слова в графике
- код языка указан в соответствии с Ethnologue с незначительными модификациями, которые соответствуют классификации Lingvodoc:
- alt-tub — тубаларский
- koi-yzv — коми-язьвинский
- yrk-for — ненецкий лесной
- группа
- семья
- возможно, слово в записи повторяется несколько раз
- в записи может присутствовать слово-стимул на русском языке
Важно: два последних пункта получены для всего подкорпуса, откуда извлекались записи. Группа и семья указаны в соответствии с классификацией, принятой в Lingvodoc.
В дорожке есть три направления оценки:
1. Определение языка
Участникам предлагается определить язык, группу, семью для произнесенного фрагмента. Все возможные группы/семьи будут указаны в предоставляемых данных. На этапе тестирования участникам будут предложены и языки, присутствующие в тренировочных данных, и ранее не виденные участниками (но генетически родственные виденным). Для языков, которых не было в тренировочных данных, необходимо указать код X. Авторы не гарантируют отсутствие записей, содержащих русские стимулы и повторы, в этой задаче, так как существующие бейслайны в этой области уже неплохо справляются с такой задачей на “чистых” данных
Метрики
Для каждого файла, сданного участником, делается подсчет следующих метрик:
- доля верно указанных языков
- доля верно указанных групп
- доля верно указанных семей
2. Распознавание речи
Участникам предлагается транскрибировать текст / написать текст в графике указанного языка. Отложен тестовый датасет звукозаписей, записи в котором не содержат повторов. Необходимо будет представить этим записям транскрипции. Несмотря на то, что в отложенном датасете не будет записей, содержащих многократное произнесение одного и того же, организаторы видят особенную пользу в построении алгоритмов или эвристик, способных эти многократности (и вкрапления других языков) либо обрабатывать, либо как минимум детектировать: объёмы записей, подверженных такому зашумлению, велики, и запрос на автоматическую обработку таких записей огромен.
Метрики
Для каждого файла, сданного участником, делается подсчет следующих метрик:
- character error rate
3. Автоматическое определение наличия в записях русского стимула
См. мотивацию в п. 2
Скрипты оценки
Ссылка на codalab для выкладывания данных