Я пытаюсь использовать NLTK делать какую-то работу на Аннотированный корпус New York Times, который содержит файл XML для каждой статьи (в текстовом формате новостной индустрии NITF).
Я могу без проблем разобрать отдельные документы так:
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')
Но мне нужно работать над всем корпусом. Я пытался сделать это:
reader = XMLCorpusReader('corpora/nytimes', r'.*')
но это не создает пригодный для использования объект читателя. Например
len(reader.words())
возвращается
raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string
Как прочитать этот корпус в NLTK?
Я новичок в NLTK, поэтому любая помощь приветствуется.