может кто-нибудь подсказать, как индексировать только слова минимальной длины с помощью Apache Lucene 5.3.1?
Я просмотрел API, но не нашел ничего, что соответствовало бы моим потребностям, кроме это, но я не мог понять, как это использовать.
Спасибо!
Редактировать: я думаю, что это важная информация, поэтому вот копия моего объяснения того, чего я хочу достичь из моего ответа ниже:
«Я не собираюсь использовать запросы. Я хочу создать инструмент для обобщения исходного кода, для которого я создал матрицу терминов документа с помощью Lucene. Теперь он также показывает односимвольные или двухсимвольные слова. Я хочу исключить их, чтобы они не отображаются в результатах, так как они не имеют большого значения для сводки. Я знаю, что могу отфильтровать их при выводе результатов, но это не чистое решение imo. Еще хуже было бы добавить все комбинации одинарных или двойных -символьные слова в стоп-лист. Я надеюсь, что есть более элегантный способ, чем один из этих».