Я хочу применить CountVectorizer
к столбцу, содержащему список слов и фраз. Другими словами, корпус — это не строка, а список. Проблема в том, что CountVectorizer
или любая другая родственная функция, с которой я столкнулся, ожидает строку в качестве входных данных. Не имеет смысла объединять список в одну строку и токенизировать их, потому что некоторые фразы содержат 2 слова. Любые идеи?
пример:
ID corpus
1 ["Harry Potter","Batman"]
2 ["Batman", "Superman", "Lord of the Rings"]
желаемый результат:
ID Harry Potter Batman Superman Lord of the Rings
1 1 1 0 0
2 0 1 1 1