Почему в наборе тегов POS Penn Treebank есть отдельный тег для слова «кому»?

В наборе тегов Penn Treebank есть отдельный тег TO для слова ' to', независимо от того, используется ли оно в смысле предлога (например, I went to school) или в смысле инфинитива (например, I want to eat). Какой цели это служит с общей точки зрения НЛП? Просто пометить инфинитив «to» отдельно интуитивно понятно, но я не вижу логики в объединении инфинитива и предлога в одном теге.

Спасибо и извините, если это не соответствует правилам переполнения стека.


person Sagar Ahire    schedule 29.09.2013    source источник


Ответы (1)


Разные корпуса обеспечивают разный уровень детализации. Сравните это, например, с Британским национальным корпусом, который включает три разных тега для в.

Я полагаю, что это могло быть связано с практикой маркировки корпуса, а не с такой конкретной целью НЛП. Вполне вероятно, что это было конструктивное решение POS Рекомендации для проекта Penn Treebank. (Обратитесь к авторам этого документа для получения дополнительных разъяснений.)

Чтобы в наборе POS-тегов не был отдельный тег для слова «to», иногда нужно было бы пометить «to» как предлог, а иногда пометить «to» другим тегом. для «маркера инфинитива». Чтобы это произошло, человеку-тегеру пришлось бы устранять неоднозначность между обеими ролями «кому». В некоторых сложных случаях (которые требуют оценки грамматичности) могут потребоваться некоторые дополнительные человеческого времени для устранения неоднозначности, что также может привести к некоторым ошибкам, учитывая размер помеченного корпуса. Этот компромисс, возможно, был бы более ошибочным в сторону эффективности и правильности, если бы информационная выгода (от степени детализации к устранению неоднозначности) оценивалась как не такая большая или если потенциальные ошибки тегирования оценивались как быть слишком много.

person arturomp    schedule 22.12.2013