Я пытаюсь написать код, который будет обрабатывать текст и в конечном итоге индексировать их все. Сначала мне нужно удалить неалфавитные символы и знаки препинания и преобразовать заглавные буквы в строчные, а затем удалить стоп-слова.
Вот что я сделал до сих пор:
from stopwords import *
def removeStopwords(wordlist, flag):
return [w for w in wordlist if w not in flag]
def preprocessing():
import re
with open('44.txt', 'r', encoding = 'utf8') as data:
for line in data:
a = line.rstrip().lower()
result = re.sub('[^a-zA-Z]', ' ', a)
b = removeStopwords(result, stopwords)
print(b)
if __name__ == '__main__':
preprocessing()
Затем я получаю, что все буквы разбиваются на части, такие как ['a'], ['w'], ['o'], ['l'], ['f']
stopwords.py — это просто список слов, например:
stopwords = ['a', 'are', 'aren t', ....]
Может кто-нибудь сказать мне, что происходит?
Спасибо за ваше время !