Маллет CRF SimpleTagger фразы / несколько слов

Я новичок в Mallet, я пытаюсь использовать mallet Simple tagger/CRF и экспериментирую с фразами - я пробовал искать документацию на сайте mallet, а также просматривал пользовательские архивы - ничего не помогло.

Я пробовал тренировать молоток для простой пометки, он хорошо работает. Вот как выглядят мои данные (пожалуйста, обратите внимание, что между тренировками есть новая строка, чтобы указать, что они разные наборы)

Пример данных обучения:

where STOPWORD
is STOPWORD
chicago CITY
<---Newline---->
Sunnyvale CITY
<---Newline---->
Chicago CITY
<---Newline---->
Washington CITY
<---Newline---->
What STOPWORD
is STOPWORD
Sunnyvale CITY
time ASK
<---Newline---->
new STOPWORD
<---Newline---->    
place STOPWORD 

У меня проблема, когда названия городов состоят из нескольких слов, скажем

new york CITY

Пожалуйста, обратите внимание, что в приведенных выше тренировочных данных слово «новое» является стоп-словом.

  1. Для Simple tagger подходит ли приведенное выше представление? Если нет, то как я могу представить pharses?
  2. Если нет, то как представить данные таким образом, чтобы SimpleTagger/CRF мог использовать предыдущие слова «n» для получения тега? т.е. часть моего ввода

person rtuser    schedule 18.03.2013    source источник


Ответы (1)


Насколько я знаю, формат, который вы использовали для многословных выражений, неверен. Согласно здесь, формат ввода: featre1 feature2 feature3 ....

Итак, в вашем случае New — это функция 1, York — это функция 2 и т. д.

Я предлагаю использовать New_York, чтобы ваши многословные выражения были одним словом.

Между тем, вы должны заметить, что вам не нужно включать сами слова во входные данные. Если вы это сделаете, они будут рассматриваться как первая функция. Так что, если вам не интересна функция «слово-текст» или «слово-лемма», выбросьте ее из своих входных данных.

person user1419243    schedule 07.10.2013