Как интерпретировать вывод synaxnet при аннотировании корпуса

Я аннотировал корпус, используя предварительно обученную синтаксическую модель (т. е. используя Parse McParseface). У меня проблема с пониманием вывода. В выходных данных воспроизводятся две метрики. Это для POS-тегов и разбора зависимостей? Если да, то какой из них отвечает за производительность POS-тегов, а какой за производительность синтаксического анализа зависимостей?

Вот результат:

INFO:tensorflow:Total processed documents: 21710 INFO:tensorflow:num correct tokens: 454150 INFO:tensorflow:total tokens: 560993 INFO:tensorflow:Seconds elapsed in evaluation: 1184.63, eval metric: 80.95% INFO:tensorflow:Processed 206 documents INFO:tensorflow:Total processed documents: 21710 INFO:tensorflow:num correct tokens: 291851 INFO:tensorflow:total tokens: 504496 INFO:tensorflow:Seconds elapsed in evaluation: 1193.17, eval metric: 57.85%

tensorflow syntaxnet

user2161903 25.01.2017 источник

Ответы (1)

arrow_upward
1
arrow_downward

Если вы используете https://github.com/tensorflow/models/blob/master/syntaxnet/syntaxnet/demo.sh, тогда первая метрика — точность тега POS, вторая — UAS. Они имеют смысл только в том случае, если вводимые вами данные conll содержат золотые POS-теги и золотые зависимости.

calberti 26.01.2017

comment

Это имеет смысл. Интересно, почему он показывает разное количество обработанных документов и общее количество токенов. У меня есть золотые наборы данных, аннотированные для тега POS и анализа зависимостей. Мне не удалось запустить парсер для нескольких файлов, но он работает для одного файла. Я объединил все аннотации в формате CoNLL в один файл, чтобы легко передать их анализатору. Статистика по общему количеству документов и токенов должна быть одинаковой. - user2161903; 26.01.2017

comment

Я думаю, что разница в общем количестве токенов для тегов POS и анализа зависимостей заключается в том, что некоторые токены при анализе зависимостей, такие как знаки препинания, не учитываются для оценки. - user2161903; 27.01.2017

Как интерпретировать вывод synaxnet при аннотировании корпуса

Ответы (1)

Похожие вопросы