Алгоритм стемминга

у меня есть вопрос об алгоритме Портера Стеммера, я исследовал в Интернете,

но я не мог найти, в чем разница между understemming и overstemming.

и является ли алгоритм Портера недостаточным или чрезмерным?

у вас есть идея?

заранее спасибо

porter-stemmer stemming

aldimeola1122 25.11.2012 источник

Ответы (1)

arrow_upward
1
arrow_downward

Overstemming происходит, когда обрезающий суффикс слишком длинный, что приводит к ложному сопоставлению несвязанных слов.

Недооценка противоположна - например. стеммер, который ничего не обрезает по своей сути.

Я подозреваю, что Портер Стеммер время от времени будет делать оба типа ошибок для английского языка. Обратите внимание, что реализации для других языков могут вести себя совсем по-другому (речь о Snowball, у которого есть пользовательские алгоритмы для множества языков). Они могут даже отличаться в лингвистическом определении основы.

ales_t 25.11.2012

comment

Спасибо, ales_t, очень помогло - aldimeola1122; 25.11.2012

Алгоритм стемминга

Ответы (1)

Похожие вопросы