Как мне инициализировать модель токена в OpenNLP?

Я программирую экстрактор именной фразы на Java и пытаюсь использовать библиотеку OpenNLP для пометки существительных. К сожалению, документация OpenNLP очень запутана. На данный момент я просто токенизирую строку английского текста. В документации я инициализирую модель токена, используя что-то вроде этого:

InputStream modelIn = new FileInputStream("en-token.bin");

try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
   e.printStackTrace();
}
finally {
  if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
 }
}

Tokenizer tokenizer = new TokenizerME(model);

String tokens[] = tokenizer.tokenize("An input sample sentence.");

Что меня смущает, так это то, что такое «en-token.bin» и где именно я могу его найти. Это должно было быть включено в исходную загрузку заархивированных файлов? Или мне нужно загрузить его с веб-сайта OpenNLP?

Вот ссылка на документацию: https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer

Любая помощь, которую вы могли бы дать мне, будет очень признательна. Заранее спасибо!

user3246779 28.07.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Вы можете найти модели по адресу http://opennlp.sourceforge.net/models-1.5/. . Они не являются частью оригинальной загрузки в Apache из-за лицензионных соображений.

Daniel Naber 28.07.2014

Как мне инициализировать модель токена в OpenNLP?

Ответы (1)

Похожие вопросы