Я выполняю задание PySpark и получаю следующее сообщение:
WARN org.apache.spark.sql.execution.Window: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
На что указывает сообщение и как определить раздел для оконной операции?
РЕДАКТИРОВАТЬ:
Я пытаюсь ранжироваться по всей колонке.
Мои данные организованы как:
A
B
A
C
D
И я хочу:
A,1
B,3
A,1
C,4
D,5
Я не думаю, что для этого должен использоваться .partitionBy (), только .orderBy (). Проблема в том, что это приводит к снижению производительности. Есть ли другой способ добиться этого без функции окна?
Если я разделю по первому столбцу, результат будет:
A,1
B,1
A,1
C,1
D,1
Чего я не хочу.