Время обучения POS-тегов Mallet

Я пытался использовать простой тегировщик Mallet (http://mallet.cs.umass.edu/sequences.php), чтобы изучить CRF-модель для POS-тегов.

Теперь я начинаю волноваться/запутываться, так как мой компьютер учится для этой модели уже более недели. Похоже, он не завис, так как он все еще дает мне вывод в виде:

...  
Punkte  NN->Puppenk�nig NN(Puppenk�nig  NN) Punkte  NN,Puppenk�nig  NN  
Punkte  NN->Obere   NN(Obere    NN) Punkte  NN,Obere    NN  
Punkte  NN->Entfernung  NN(Entfernung   NN) Punkte  NN,Entfernung   NN  
...

Поэтому я хотел спросить, нормально ли, что Маллет так долго держится, или что-то пошло не так?

Я использовал команду, указанную на веб-странице:

hough@gobur:~/tagger-test$ java -cp  
 "/home/hough/mallet/class:/home/hough/mallet/lib/mallet-deps.jar"
 cc.mallet.fst.SimpleTagger
 --train true --model-file nouncrf  sample

Данные обучения содержат 96903 токена.

Редактировать:
Мы предполагаем, что это может быть как-то связано с формой ввода. На сайте указана форма:

Bill CAPITALIZED noun  
slept non-noun   
here LOWERCASE STOPWORD non-noun

И документация для SimpleTagger(http://mallet.cs.umass.edu/api/) утверждает, что каждый экземпляр должен быть отдельным блоком, разделенным пустыми строками. Хотя я не уверен, что подразумевается под экземпляром, я подумал, что ожидаемая форма выглядит примерно так:

word pos  
word pos  
. $.  

word pos  
word pos  
word pos  
. $.  

word pos  
word pos    
. $.  

...

Это правильный формат? Может быть, у кого-то есть пример файла, чтобы показать, как должен выглядеть формат?


person Kai    schedule 06.10.2016    source источник


Ответы (1)


Неделя для корпуса из 100 000 токенов кажется слишком долгой. Я рассчитывал максимум на полчаса.

person David Mimno    schedule 06.10.2016