у меня есть вопрос об алгоритме Портера Стеммера, я исследовал в Интернете,
но я не мог найти, в чем разница между understemming и overstemming.
и является ли алгоритм Портера недостаточным или чрезмерным?
у вас есть идея?
заранее спасибо
у меня есть вопрос об алгоритме Портера Стеммера, я исследовал в Интернете,
но я не мог найти, в чем разница между understemming и overstemming.
и является ли алгоритм Портера недостаточным или чрезмерным?
у вас есть идея?
заранее спасибо
Overstemming происходит, когда обрезающий суффикс слишком длинный, что приводит к ложному сопоставлению несвязанных слов.
Недооценка противоположна - например. стеммер, который ничего не обрезает по своей сути.
Я подозреваю, что Портер Стеммер время от времени будет делать оба типа ошибок для английского языка. Обратите внимание, что реализации для других языков могут вести себя совсем по-другому (речь о Snowball, у которого есть пользовательские алгоритмы для множества языков). Они могут даже отличаться в лингвистическом определении основы.