Python 3 решает фрейм данных

Я пытаюсь удалить стоп-слова из CSV-файла, содержащего арабские предложения, но я не уверен, что получил много ошибок

мой код

print(tokenized_docs_no_punctuation)
    stops = set(stopwords.words('arabic'))
    words=tokenized_docs_no_punctuation
    print([word for word in words if word not in stops])

и это ошибка введите здесь описание изображения

любая идея или решение ??


person Black Snow    schedule 23.12.2019    source источник
comment
какое это имеет отношение к пандам?   -  person Umar.H    schedule 23.12.2019
comment
потому что tokenized_docs_no_punctuation получен из кадра данных pandas csv   -  person Black Snow    schedule 23.12.2019
comment
Можете ли вы добавить содержание stops и words к своему вопросу?   -  person yabberth    schedule 23.12.2019
comment
Извини, что ты имеешь ввиду?   -  person Black Snow    schedule 23.12.2019


Ответы (1)


Ошибка, которую вы получаете TypeError: unhashable type: 'list', говорит о том, что вы пытаетесь хэшировать объект list. Согласно коду, который вы разместили в своем вопросе, кажется, что set(stopwords.words('arabic')) вызывает ошибку, потому что функция set пытается хешировать аргументы для поиска дубликатов. Взгляните на вывод stopwords.words('arabic') и убедитесь, что в нем нет объекта list.

person Mehdi Balouchi    schedule 23.12.2019
comment
мой код читает CSV-файл с пандами, а затем токенизирует его, чтобы удалить стоп-слова, так что мне нужно делать - person Black Snow; 23.12.2019
comment
Вы можете написать вывод stopwords.words('arabic') здесь? - person Mehdi Balouchi; 23.12.2019