Какой вариант дает лучшую производительность с pyspark? Обработка UDF или RDD с картой?
Я потребляю данные с помощью искровой структурированной потоковой передачи, и для каждого микропакета я конвертирую DF в RDD и выполняю некоторые операции python graphkit и снова конвертирую RDD в DF для записи в поток Kafka.