Сроки

  • 25 февраля — предоставление обучающей выборки
  • 10 марта — предоставление тестовой выборки
  • 20 марта — подача результатов участниками
  • 23 марта — публикация результатов
  • 30 марта — сбор статей для публикации

Описание заданий

Общие замечания

Участники могут использовать данные проекта Lingvodoc, предоставленные организаторами, а также любые другие доступные им данные. При этом код участников и использованные ими внешние данные должны быть выложены в открытый доступ. Все файлы имеют кодировку UTF-8 (без маркера последовательности байтов). Каждый участник может подать максимум 3 файла на одно задание.

Входные данные

Наборы данных можно увидеть на странице: Данные по ASR

Файл, в котором перечислены:

  • идентификатор, соответствующий записи
  • текст транскрипции/слова в графике
  • код языка указан в соответствии с Ethnologue с незначительными модификациями, которые соответствуют классификации Lingvodoc:
    • alt-tub — тубаларский
    • koi-yzv — коми-язьвинский
    • yrk-for — ненецкий лесной
  • группа
  • семья
  • возможно, слово в записи повторяется несколько раз
  • в записи может присутствовать слово-стимул на русском языке

Важно: два последних пункта получены для всего подкорпуса, откуда извлекались записи. Группа и семья указаны в соответствии с классификацией, принятой в Lingvodoc.

В дорожке есть три направления оценки:

1. Определение языка

Участникам предлагается определить язык, группу, семью для произнесенного фрагмента. Все возможные группы/семьи будут указаны в предоставляемых данных. На этапе тестирования участникам будут предложены и языки, присутствующие в тренировочных данных, и ранее не виденные участниками (но генетически родственные виденным). Для языков, которых не было в тренировочных данных, необходимо указать код X. Авторы не гарантируют отсутствие записей, содержащих русские стимулы и повторы, в этой задаче, так как существующие бейслайны в этой области уже неплохо справляются с такой задачей на “чистых” данных

Метрики

Для каждого файла, сданного участником, делается подсчет следующих метрик:

  • доля верно указанных языков
  • доля верно указанных групп
  • доля верно указанных семей

2. Распознавание речи

Участникам предлагается транскрибировать текст / написать текст в графике указанного языка. Отложен тестовый датасет звукозаписей, записи в котором не содержат повторов. Необходимо будет представить этим записям транскрипции. Несмотря на то, что в отложенном датасете не будет записей, содержащих многократное произнесение одного и того же, организаторы видят особенную пользу в построении алгоритмов или эвристик, способных эти многократности (и вкрапления других языков) либо обрабатывать, либо как минимум детектировать: объёмы записей, подверженных такому зашумлению, велики, и запрос на автоматическую обработку таких записей огромен.

Метрики

Для каждого файла, сданного участником, делается подсчет следующих метрик:

  • character error rate

3. Автоматическое определение наличия в записях русского стимула

См. мотивацию в п. 2

Скрипты оценки

Ссылка на codalab для выкладывания данных

Пример submission

Скрипт

Описание скрипта

Участники

Google-группа участников

Канал и чат участников в Telegram