Я новичок в Mallet, я пытаюсь использовать mallet Simple tagger/CRF и экспериментирую с фразами - я пробовал искать документацию на сайте mallet, а также просматривал пользовательские архивы - ничего не помогло.
Я пробовал тренировать молоток для простой пометки, он хорошо работает. Вот как выглядят мои данные (пожалуйста, обратите внимание, что между тренировками есть новая строка, чтобы указать, что они разные наборы)
Пример данных обучения:
where STOPWORD
is STOPWORD
chicago CITY
<---Newline---->
Sunnyvale CITY
<---Newline---->
Chicago CITY
<---Newline---->
Washington CITY
<---Newline---->
What STOPWORD
is STOPWORD
Sunnyvale CITY
time ASK
<---Newline---->
new STOPWORD
<---Newline---->
place STOPWORD
У меня проблема, когда названия городов состоят из нескольких слов, скажем
new york CITY
Пожалуйста, обратите внимание, что в приведенных выше тренировочных данных слово «новое» является стоп-словом.
- Для Simple tagger подходит ли приведенное выше представление? Если нет, то как я могу представить pharses?
- Если нет, то как представить данные таким образом, чтобы SimpleTagger/CRF мог использовать предыдущие слова «n» для получения тега? т.е. часть моего ввода