После импорта стоп-слов из корпуса я загрузил все файлы из nltk.download(), а затем
#reading from a .txt file
list = []
with open("positive.txt", "r") as file:
for words in file:
words = words.strip()
list.append(words)
#tokenizing words
pos_words = []
for i in list:
pos_words.append(word_tokenize(i))
stop_words = [stopwords.words('english')]
print(stop_words)
final_pos_words = []
for i in pos_words:
if i not in stop_words:
final_pos_words.append(i)
print(final_pos_words)
Но это не делает никаких удалений. После запуска этого:
final_pos_words = []
for i in pos_words:
if i in stop_words:
final_pos_words.append(i)
print(final_pos_words)
Вывод []
stop_words = set(stopwords.words('english'))
- person cs95   schedule 24.09.2017pos_words.append(word_tokenize(i))
. Методword_tokenize()
возвращает список (возможно, из одного слова), поэтомуpos_words
содержит списки, а не слова. - person alexis   schedule 24.09.2017