Вот мое требование. Я хочу токенизировать и пометить абзац таким образом, чтобы это позволило мне добиться следующих результатов.
- Следует указать дату и время в абзаце и пометить их как ДАТА и ВРЕМЯ.
- Должен определять известные фразы в абзаце и помечать их как CUSTOM.
- И остальное содержимое должно быть токенизировано должно быть токенизировано функциями word_tokenize и pos_tag nltk по умолчанию?
Например, после предложения
"They all like to go there on 5th November 2010, but I am not interested."
должны быть помечены и размечены следующим образом в случае, если пользовательская фраза "Мне это не интересно".
[('They', 'PRP'), ('all', 'VBP'), ('like', 'IN'), ('to', 'TO'), ('go', 'VB'),
('there', 'RB'), ('on', 'IN'), ('5th November 2010', 'DATE'), (',', ','),
('but', 'CC'), ('I am not interested', 'CUSTOM'), ('.', '.')]
Будут полезны любые предложения.