У меня есть фрейм данных искры, как показано ниже:
+-------+----------+-----+
| Status| date |count|
+-------+----------+-----+
|Success|2019-09-06|23596|
|Failure|2019-09-06| 2494|
|Failure|2019-09-07| 1863|
|Success|2019-09-07|22399|
Я пытаюсь вычислить процент успеха/неудачи по дате и добавить результат в тот же кадр данных pyspark. Я могу рассчитать по группе, например, только для коэффициента успеха или коэффициента отказов после создания нескольких промежуточных таблиц/фреймов данных. Как мы можем добиться использования одного и того же единого фрейма данных без создания нового промежуточного фрейма данных?
Ожидаемый результат:
+-------+----------+-----+----------------------
| Status| date |count| Percent |
+-------+----------+-----+----------------------
|Success|2019-09-06|23596| =(23596/(23596+2494)*100)
|Failure|2019-09-06| 2494| =(2494/(23596+2494)*100)
|Failure|2019-09-07| 1863| = (1863/(1863 + 22399)*100)
|Success|2019-09-07|22399| = (22399/(1863 + 22399)*100)