Как интерпретировать вывод synaxnet при аннотировании корпуса

Я аннотировал корпус, используя предварительно обученную синтаксическую модель (т. е. используя Parse McParseface). У меня проблема с пониманием вывода. В выходных данных воспроизводятся две метрики. Это для POS-тегов и разбора зависимостей? Если да, то какой из них отвечает за производительность POS-тегов, а какой за производительность синтаксического анализа зависимостей?

Вот результат:

INFO:tensorflow:Total processed documents: 21710 INFO:tensorflow:num correct tokens: 454150 INFO:tensorflow:total tokens: 560993 INFO:tensorflow:Seconds elapsed in evaluation: 1184.63, eval metric: 80.95% INFO:tensorflow:Processed 206 documents INFO:tensorflow:Total processed documents: 21710 INFO:tensorflow:num correct tokens: 291851 INFO:tensorflow:total tokens: 504496 INFO:tensorflow:Seconds elapsed in evaluation: 1193.17, eval metric: 57.85%


person user2161903    schedule 25.01.2017    source источник


Ответы (1)


Если вы используете https://github.com/tensorflow/models/blob/master/syntaxnet/syntaxnet/demo.sh, тогда первая метрика — точность тега POS, вторая — UAS. Они имеют смысл только в том случае, если вводимые вами данные conll содержат золотые POS-теги и золотые зависимости.

person calberti    schedule 26.01.2017
comment
Это имеет смысл. Интересно, почему он показывает разное количество обработанных документов и общее количество токенов. У меня есть золотые наборы данных, аннотированные для тега POS и анализа зависимостей. Мне не удалось запустить парсер для нескольких файлов, но он работает для одного файла. Я объединил все аннотации в формате CoNLL в один файл, чтобы легко передать их анализатору. Статистика по общему количеству документов и токенов должна быть одинаковой. - person user2161903; 26.01.2017
comment
Я думаю, что разница в общем количестве токенов для тегов POS и анализа зависимостей заключается в том, что некоторые токены при анализе зависимостей, такие как знаки препинания, не учитываются для оценки. - person user2161903; 27.01.2017