Это часть моего проекта, где мне нужно представить вывод после обнаружения фразы следующим образом: (a,x,b), где a, x, b — фразы. Я построил код и получил вывод следующим образом:
(CLAUSE (NP Jack/NNP) (VP loved/VBD) (NP Peter/NNP))
(CLAUSE (NP Jack/NNP) (VP stayed/VBD) (NP in/IN London/NNP))
(CLAUSE (NP Tom/NNP) (VP is/VBZ) (NP in/IN Kolkata/NNP))
Я хочу сделать его таким же, как предыдущее представление, что означает, что я должен удалить теги «CLAUSE», «NP», «VP», «VBD», «NNP» и т. Д.
Как это сделать?
Что я пробовал
Сначала написал это в текстовом файле, токенизировал и использовал list.remove('word')
. Но это совсем не полезно. Я еще немного уточняю.
Мой вклад
(CLAUSE (NP Jack/NNP) (VP loved/VBD) (NP Peter/NNP))
(CLAUSE (NP Jack/NNP) (VP stayed/VBD) (NP in/IN London/NNP))
Выход будет
[Джек,любил,Питер], [Джек,остался,в Лондоне] Вывод только по фигурным скобкам и без тегов.
nltk.word_tokenize(t);
дает мне список слов, без тегов:['Julia', 'loves', 'Peter']
...вы используете какую-то другую конфигурацию или что-то в этом роде? - person bigOther   schedule 14.11.2015'Julia loves Peter'
- person bigOther   schedule 14.11.2015