Алгоритм стемминга

у меня есть вопрос об алгоритме Портера Стеммера, я исследовал в Интернете,

но я не мог найти, в чем разница между understemming и overstemming.

и является ли алгоритм Портера недостаточным или чрезмерным?

у вас есть идея?

заранее спасибо


person aldimeola1122    schedule 25.11.2012    source источник


Ответы (1)


Overstemming происходит, когда обрезающий суффикс слишком длинный, что приводит к ложному сопоставлению несвязанных слов.

Недооценка противоположна - например. стеммер, который ничего не обрезает по своей сути.

Я подозреваю, что Портер Стеммер время от времени будет делать оба типа ошибок для английского языка. Обратите внимание, что реализации для других языков могут вести себя совсем по-другому (речь о Snowball, у которого есть пользовательские алгоритмы для множества языков). Они могут даже отличаться в лингвистическом определении основы.

person ales_t    schedule 25.11.2012
comment
Спасибо, ales_t, очень помогло - person aldimeola1122; 25.11.2012