У меня довольно большой файл (около 8 ГБ) ... теперь я читаю этот пост: Как читать большой файл построчно и этот Токенизация больших (›70 МБ ) TXT-файл с использованием Python NLTK. Объединение и запись данных в поток ошибок
Но это все еще не работает ... когда я запускаю свой код, мой компьютер зависает. Я делаю что-то неправильно?
Я хочу собрать все слова в список (разметить их). Кроме того, разве код не читает каждую строку и не токенизирует ее? Разве это не может помешать токенизатору правильно размечать слова, поскольку некоторые слова (и предложения) не заканчиваются после одной строки?
Я подумал о том, чтобы разделить его на более мелкие файлы, но разве это не потребляет мою оперативную память, если у меня всего 8 ГБ ОЗУ, поскольку список слов, вероятно, будет таким же большим (8 ГБ), как и исходный текстовый файл?
word_list=[]
number = 0
with open(os.path.join(save_path, 'alldata.txt'), 'rb',encoding="utf-8") as t:
for line in t.readlines():
word_list+=nltk.word_tokenize(line)
number = number + 1
print(number)