Ошибки запуска UIMA Ruta с использованием DKProCore Part-of-Speech Tagger (учебник по немецким романам)

Следуя этому учебнику по UIMA Ruta для немецких романов шаг за шагом, При запуске Main.ruta получаю следующую ошибку:

*SEVERE: Exception occurred
org.apache.uima.analysis_engine.AnalysisEngineProcessException
(...)
Caused by: java.io.IOException: Unable to locate model [de] in the 
following locations 
[classpath:/de/tudarmstadt/ukp/dkpro/core/treetagger/lib/tagger-de-
little-endian.par].  Make sure the environment variable 
'TREETAGGER_HOME' or 'TAGDIR' or the system property 'treetagger.home' 
point to the TreeTagger installation directory.*

Я проверил местоположение моего TREETAGGER_HOME, которое установлено в моих переменных среды и в Eclipse. Я также рассматривал возможность использования более поздней версии древовидного тега и обнаружил следующие ошибки:

1.7.0 СЕРЬЕЗНЫЙ: Произошло исключение org.apache.uima.analysis_engine.AnalysisEngineProcessException: Ошибка обработки аннотатора. (...) Вызвано: java.lang.ClassNotFoundException: de.tudarmstadt.ukp.dkpro.core.api.parameter.Messages в java.net.URLClassLoader.findClass(неизвестный источник) в java.lang.ClassLoader.loadClass( Неизвестный источник) на sun.misc.Launcher$AppClassLoader.loadClass(Неизвестный источник) на java.lang.ClassLoader.loadClass(Неизвестный источник) ... еще 43

1.8.0 СЕРЬЕЗНЫЙ: произошло исключение org.apache.uima.analysis_engine.AnalysisEngineProcessException: «Неподдерживаемый язык [de]». на de.tudarmstadt.uk (...) Причина: java.io.IOException: невозможно загрузить ресурс [путь к классам:/de/tudarmstadt/ukp/dkpro/core/treetagger/lib/tagger-de-le.properties] : FileNotFoundException: файл не найден в [classpath:/de/tudarmstadt/ukp/dkpro/core/treetagger/lib/tagger-de-le.properties]

Увидев ошибку в последней попытке, я еще раз проверил языковые параметры для немецкого языка, которые присутствуют в необходимых форматах. Любые советы о том, как решить эту проблему?


person Kristien Verreydt    schedule 11.05.2017    source источник


Ответы (1)


Проблема в том, что лицензия TreeTagger запрещает распространять его через Maven Central.

Это длинный ответ на вопрос, который включает в себя сборку и установку моделей TreeTagger локально. Вы можете посмотреть, например. следуя инструкциям здесь проектом Excitement, который также использует DKPro Core.

Я бы порекомендовал вам попробовать использовать другой тег вместо TreeTagger, например. OpenNlpPosTagger из DKPro Core. Вместо de.tudarmstadt.ukp.dkpro.core.treetagger-asl используйте de.tudarmstadt.ukp.dkpro.core.opennlp-asl в файле pom.xml.

<dependency>
  <groupId>de.tudarmstadt.ukp.dkpro.core</groupId>
  <artifactId>de.tudarmstadt.ukp.dkpro.core.opennlp-asl</artifactId>
  <version>1.5.0</version>
</dependency>

А в скрипте POSTag.ruta попробуйте заменить import/exec TreeTaggerPosLemmaTT4J на эти:

UIMAFIT de.tudarmstadt.ukp.dkpro.core.opennlp.OpenNlpPosTagger;
...snip...
Document{-> EXEC(OpenNlpPosTagger, {pos.POS, Lemma})}:

Предупреждение: я не пробовал запускать это;)

Отказ от ответственности: я работаю над DKPro Core.

person rec    schedule 12.05.2017