Как мне инициализировать модель токена в OpenNLP?

Я программирую экстрактор именной фразы на Java и пытаюсь использовать библиотеку OpenNLP для пометки существительных. К сожалению, документация OpenNLP очень запутана. На данный момент я просто токенизирую строку английского текста. В документации я инициализирую модель токена, используя что-то вроде этого:

InputStream modelIn = new FileInputStream("en-token.bin");

try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
   e.printStackTrace();
}
finally {
  if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
 }
}

Tokenizer tokenizer = new TokenizerME(model);

String tokens[] = tokenizer.tokenize("An input sample sentence.");

Что меня смущает, так это то, что такое «en-token.bin» и где именно я могу его найти. Это должно было быть включено в исходную загрузку заархивированных файлов? Или мне нужно загрузить его с веб-сайта OpenNLP?

Вот ссылка на документацию: https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer

Любая помощь, которую вы могли бы дать мне, будет очень признательна. Заранее спасибо!


person user3246779    schedule 28.07.2014    source источник


Ответы (1)


Вы можете найти модели по адресу http://opennlp.sourceforge.net/models-1.5/. . Они не являются частью оригинальной загрузки в Apache из-за лицензионных соображений.

person Daniel Naber    schedule 28.07.2014