Я хочу сделать базовый стемминг иврита.
Все примеры настраиваемых анализаторов, которые я мог найти, всегда объединяют другие анализаторы и фильтры, но никогда не выполняют никакой обработки на уровне строк.
Что мне нужно сделать, например, если я хочу создать анализатор, который для каждого термина в потоке, который он получает, испускает один или два термина по следующим правилам: если входящий термин начинается с чего-то другого, кроме "a", он должен передаваться как есть. если входящий член начинается с «а», то следует выделить два члена: исходный член и второй без ведущего «а» и с меньшим усилением.
Таким образом, если в документе указано «help away», он вернет «help», «away» и «way ^ 0.8».
Какие методы анализатора я должен переопределить, чтобы это сделать? (Было бы очень полезно указать на пример схожего характера).
Спасибо