Статьи по теме pyspark-dataframes [pyspark, pyspark-dataframes, pyspark-sql, apache-spark, python]

Вопросы по теме 'pyspark-dataframes'

Процентный расчет и назначение нового столбца в том же фрейме данных

У меня есть фрейм данных искры, как показано ниже: +-------+----------+-----+ | Status| date |count| +-------+----------+-----+ |Success|2019-09-06|23596| |Failure|2019-09-06| 2494| |Failure|2019-09-07| 1863| |Success|2019-09-07|22399| Я...

32 просмотров

pyspark pyspark-dataframes pyspark-sql

13.05.2024

операция искрового соединения для двух фреймов данных

когда df1 и df2 имеют одинаковые строки и df1 и df2 не имеют повторяющегося значения какова сложность операции соединения df1.join (df2)? мой вопрос - взять O (n ^ 2) и можно ли отсортировать фрейм данных и повысить его производительность?...

35 просмотров

pyspark pyspark-dataframes

03.03.2024

PicklingError в Pyspark

Я написал ниже функцию в pyspark, чтобы получить deptid и вернуть фрейм данных, который я хочу использовать в spark sql. защита get_max_salary (дептид): sql_salary="выберите максимальную (зарплату) сотрудника, где depid = {}" df_salary =...

440 просмотров

apache-spark pyspark pyspark-dataframes pyspark-sql

08.11.2022

Добавление элемента списка в качестве столбца в существующий фрейм данных pyspark

У меня есть список lists=[0,1,2,3,5,6,7] . Порядок не является последовательным. У меня есть фреймворк pyspark с 9 столбцами. +-------------------+--------+--------+--------+--------+--------+--------+---------------+-----+----+ |...

1573 просмотров

python pyspark pyspark-dataframes

26.08.2023

Поле DOB в Pyspark

Я хочу рассчитать возраст и из поля DOB. Но в моем коде я жестко это кодирую. Но нужно делать динамично, как сегодня - ДОБ. Точно так же я также хочу рассчитать продолжительность от start_date. Мой фрейм данных выглядит так - id...

347 просмотров

pyspark pyspark-dataframes pyspark-sql

30.10.2023

Найдите процентили значений из распределений категорий в PySpark

164 просмотров

python pandas pyspark pyspark-dataframes pyspark-sql

18.11.2023

как удалить пробелы в заголовке столбцов в pyspark и как преобразовать строковую дату в формат даты и времени

-Я новичок в pyspark, я пытаюсь удалить пробелы, меня не собираются удалять после этого. Я пытался преобразовать тип строки даты в формат DateTime, который я не преобразовал. пожалуйста, помогите мне, как это сделать. Я пробовал это:...

52 просмотров

pyspark pyspark-dataframes pyspark-sql

08.07.2022

Проверка значений одного столбца в столбце в другом фрейме данных в pyspark

У меня есть два фрейма данных Pyspark (DF1 и DF2). Я хочу проверить, доступны ли города в DF1 в столбце городов в DF2, и если да, то вернуть название страны из DF2 и создать новый фрейм данных DF3 с Sl.No, City и Country. DF1 Sl.No City 1 a 2 b...

183 просмотров

python pyspark-dataframes

21.03.2022

Как использовать SparkSQL для выбора строк в Spark DF на основе нескольких условий

Я относительно новичок в pyspark, и у меня есть фрейм данных Spark со столбцом даты «Issue_Date». Столбец «Issue_Date» содержит несколько дат за 1970-2060 гг. (Из-за ошибок). На основе фрейма данных Spark я создал на его основе временную таблицу и...

49 просмотров

apache-spark pyspark pyspark-dataframes pyspark-sql

05.03.2022

Извлечение ключевых слов с помощью Flashtext в PySpark

Я пытаюсь извлечь ключевые слова из столбца имен меню в фреймворке PySpark. Ниже показано, как был создан обработчик ключевых слов. keywords - это список ключевых слов, например ['sandwiches', 'burgers', ...] . from flashtext import...

393 просмотров

pyspark-dataframes

23.01.2023

У меня есть DataFrame, содержащий столбец со строками. Я хочу найти похожие строки и пометить их флажком. Я использую функцию ratio из модуля python-Levenshtein и хотите пометить строки с коэффициентом выше 0,90 как «похожие». Ниже приведен...

383 просмотров

python-3.x pyspark apache-spark-sql pyspark-dataframes

15.04.2022

Мудрый рейтинг в PySpark

Мои данные искры выглядят так - area product score a aa .39 a bb .03 a cc 1.1 a dd .5 b...

146 просмотров

pyspark pyspark-dataframes pyspark-sql

29.12.2023

Удалить столбец с тем же именем, используя индекс столбца в pyspark

Это мой фрейм данных. Я пытаюсь удалить повторяющиеся столбцы с тем же именем, используя индекс: df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b']) df.show() Выход: +---+---+---+---+---+ | c| b| a| a| b|...

1789 просмотров

apache-spark pyspark pyspark-dataframes pyspark-sql

26.03.2023

Добавить столбец во вновь созданный фрейм данных, выбрав столбец из старого фрейма данных pyspark

Я читаю JSON, и у меня есть словарь (dictn), ключи которого говорят мне, какие все столбцы я должен выбрать из JSON df. Я пытаюсь создать новый df, а затем добавить те столбцы, чьи ключи из dictn присутствовали в JSON, но я получаю приведенную ниже...

255 просмотров

python pyspark apache-spark-sql pyspark-dataframes

17.02.2024

Преобразование многоуровневого JSON в фрейм данных с помощью pyspark

Мой входной файл JSON { "Name": "Test", "Mobile": 12345678, "Boolean": true, "Pets": ["Dog", "cat"], "Address": { "Permanent address": "USA", "current Address": "AU" } } Требование состоит в том, чтобы преобразовать вышеупомянутый...

282 просмотров

pyspark apache-spark-sql pyspark-dataframes

28.03.2024

Вложенный json и фрейм данных - получение данных из массива

Я пытаюсь получить данные из файла json. df=spark.read.json('/home/data/activities.json',multiLine=True) Содержимое выглядит следующим образом (я включил только 1 строку с данными, их 94): {"meta.count":"94", "data":[...

79 просмотров

apache-spark pyspark pyspark-dataframes pyspark-sql

28.03.2022

От разреженного по столбцу до плотного массива в pyspark

У меня есть два фрейма данных, из которых мне нужно получить информацию, чтобы сгенерировать третий. Первый фрейм данных содержит информацию об итерациях элемента пользователем, например, +-----+-----------+-----------+ |user | itemId |date...

327 просмотров

apache-spark pyspark pyspark-dataframes pyspark-sql

09.12.2022

Метод фильтра данных pySpark

Я использую среду выполнения Databricks 6.3 и использую pySpark. У меня есть кадр данных df_1. SalesVolume — целое число, а AveragePrice — строка. Когда я выполняю приведенный ниже код, код запускается, и я получаю правильный вывод....

144 просмотров

pyspark databricks pyspark-dataframes

05.03.2023

Проблема с Pyspark UDF для получения дескрипторов с проблемой openCV

Я начинаю с философии Spark и, в моем случае, с Pyspark. У меня есть небольшой школьный проект, который не кажется сложным, но я работаю над ним много дней и до сих пор не могу добиться успеха. Мне нужно загрузить изображения в папку и извлечь...

151 просмотров

python opencv pyspark pyspark-dataframes

19.08.2023

Фильтр PySpark: AttributeError: объект 'numpy.float32' не имеет атрибута '_get_object_id'

В PySpark я хотел бы отфильтровать фрейм данных искры, подобный этому temp_df = df1.filter(df1.latitude_float.between(lat_min, lat_max) & df1.longitude_float.between(lng_min, lng_max)) df1 - это фрейм данных, созданный с помощью...

396 просмотров

pyspark-dataframes pyspark-sql

21.02.2023

Вопросы по теме 'pyspark-dataframes'

Похожие вопросы