Я программирую экстрактор именной фразы на Java и пытаюсь использовать библиотеку OpenNLP для пометки существительных. К сожалению, документация OpenNLP очень запутана. На данный момент я просто токенизирую строку английского текста. В документации я инициализирую модель токена, используя что-то вроде этого:
InputStream modelIn = new FileInputStream("en-token.bin");
try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
e.printStackTrace();
}
finally {
if (modelIn != null) {
try {
modelIn.close();
}
catch (IOException e) {
}
}
}
Tokenizer tokenizer = new TokenizerME(model);
String tokens[] = tokenizer.tokenize("An input sample sentence.");
Что меня смущает, так это то, что такое «en-token.bin» и где именно я могу его найти. Это должно было быть включено в исходную загрузку заархивированных файлов? Или мне нужно загрузить его с веб-сайта OpenNLP?
Вот ссылка на документацию: https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer
Любая помощь, которую вы могли бы дать мне, будет очень признательна. Заранее спасибо!