Я пытался использовать простой тегировщик Mallet (http://mallet.cs.umass.edu/sequences.php), чтобы изучить CRF-модель для POS-тегов.
Теперь я начинаю волноваться/запутываться, так как мой компьютер учится для этой модели уже более недели. Похоже, он не завис, так как он все еще дает мне вывод в виде:
...
Punkte NN->Puppenk�nig NN(Puppenk�nig NN) Punkte NN,Puppenk�nig NN
Punkte NN->Obere NN(Obere NN) Punkte NN,Obere NN
Punkte NN->Entfernung NN(Entfernung NN) Punkte NN,Entfernung NN
...
Поэтому я хотел спросить, нормально ли, что Маллет так долго держится, или что-то пошло не так?
Я использовал команду, указанную на веб-странице:
hough@gobur:~/tagger-test$ java -cp
"/home/hough/mallet/class:/home/hough/mallet/lib/mallet-deps.jar"
cc.mallet.fst.SimpleTagger
--train true --model-file nouncrf sample
Данные обучения содержат 96903 токена.
Редактировать:
Мы предполагаем, что это может быть как-то связано с формой ввода. На сайте указана форма:
Bill CAPITALIZED noun
slept non-noun
here LOWERCASE STOPWORD non-noun
И документация для SimpleTagger(http://mallet.cs.umass.edu/api/) утверждает, что каждый экземпляр должен быть отдельным блоком, разделенным пустыми строками. Хотя я не уверен, что подразумевается под экземпляром, я подумал, что ожидаемая форма выглядит примерно так:
word pos
word pos
. $.
word pos
word pos
word pos
. $.
word pos
word pos
. $.
...
Это правильный формат? Может быть, у кого-то есть пример файла, чтобы показать, как должен выглядеть формат?