Я использую класс pyspark.ml.feature.StopWordsRemover в своем фрейме данных pyspark. Он имеет идентификатор и текстовый столбец. В дополнение к предоставленному списку стоп-слов по умолчанию я хотел бы добавить свой собственный список, чтобы удалить все числовые значения из строки.
Я вижу, что есть метод для добавления setStopWords для этого класса. Я думаю, что борюсь с правильным синтаксисом для использования этого метода.
from pyspark.sql.functions import *
from pyspark.ml.feature import *
a = StopWordsRemover(inputCol="words", outputCol="filtered")
b = a.transform(df)
Приведенный выше код дает ожидаемые результаты в отфильтрованном столбце, но он удаляет/останавливает только стандартные слова. Я ищу способ добавить свой собственный список, в котором будет больше слов и числовых значений, которые я хочу отфильтровать.