Вопросы по теме 'pyspark-dataframes'

Процентный расчет и назначение нового столбца в том же фрейме данных
У меня есть фрейм данных искры, как показано ниже: +-------+----------+-----+ | Status| date |count| +-------+----------+-----+ |Success|2019-09-06|23596| |Failure|2019-09-06| 2494| |Failure|2019-09-07| 1863| |Success|2019-09-07|22399| Я...
32 просмотров
schedule 13.05.2024

операция искрового соединения для двух фреймов данных
когда df1 и df2 имеют одинаковые строки и df1 и df2 не имеют повторяющегося значения какова сложность операции соединения df1.join (df2)? мой вопрос - взять O (n ^ 2) и можно ли отсортировать фрейм данных и повысить его производительность?...
35 просмотров
schedule 03.03.2024

PicklingError в Pyspark
Я написал ниже функцию в pyspark, чтобы получить deptid и вернуть фрейм данных, который я хочу использовать в spark sql. защита get_max_salary (дептид): sql_salary="выберите максимальную (зарплату) сотрудника, где depid = {}" df_salary =...
440 просмотров

Добавление элемента списка в качестве столбца в существующий фрейм данных pyspark
У меня есть список lists=[0,1,2,3,5,6,7] . Порядок не является последовательным. У меня есть фреймворк pyspark с 9 столбцами. +-------------------+--------+--------+--------+--------+--------+--------+---------------+-----+----+ |...
1573 просмотров
schedule 26.08.2023

Поле DOB в Pyspark
Я хочу рассчитать возраст и из поля DOB. Но в моем коде я жестко это кодирую. Но нужно делать динамично, как сегодня - ДОБ. Точно так же я также хочу рассчитать продолжительность от start_date. Мой фрейм данных выглядит так - id...
347 просмотров
schedule 30.10.2023

Найдите процентили значений из распределений категорий в PySpark
У меня есть следующий фрейм данных PySpark (скажем, df ). В нем есть столбцы name , timestamp , category и value . +------+-------------------+--------+-----+ | name| timestamp|category|value|...
164 просмотров

как удалить пробелы в заголовке столбцов в pyspark и как преобразовать строковую дату в формат даты и времени
-Я новичок в pyspark, я пытаюсь удалить пробелы, меня не собираются удалять после этого. Я пытался преобразовать тип строки даты в формат DateTime, который я не преобразовал. пожалуйста, помогите мне, как это сделать. Я пробовал это:...
52 просмотров
schedule 08.07.2022

Проверка значений одного столбца в столбце в другом фрейме данных в pyspark
У меня есть два фрейма данных Pyspark (DF1 и DF2). Я хочу проверить, доступны ли города в DF1 в столбце городов в DF2, и если да, то вернуть название страны из DF2 и создать новый фрейм данных DF3 с Sl.No, City и Country. DF1 Sl.No City 1 a 2 b...
183 просмотров
schedule 21.03.2022

Как использовать SparkSQL для выбора строк в Spark DF на основе нескольких условий
Я относительно новичок в pyspark, и у меня есть фрейм данных Spark со столбцом даты «Issue_Date». Столбец «Issue_Date» содержит несколько дат за 1970-2060 гг. (Из-за ошибок). На основе фрейма данных Spark я создал на его основе временную таблицу и...
49 просмотров

Извлечение ключевых слов с помощью Flashtext в PySpark
Я пытаюсь извлечь ключевые слова из столбца имен меню в фреймворке PySpark. Ниже показано, как был создан обработчик ключевых слов. keywords - это список ключевых слов, например ['sandwiches', 'burgers', ...] . from flashtext import...
393 просмотров
schedule 23.01.2023

Найдите похожие строки, присутствующие в столбце DataFrame, без использования цикла for в PySpark
У меня есть DataFrame, содержащий столбец со строками. Я хочу найти похожие строки и пометить их флажком. Я использую функцию ratio из модуля python-Levenshtein и хотите пометить строки с коэффициентом выше 0,90 как «похожие». Ниже приведен...
383 просмотров

Мудрый рейтинг в PySpark
Мои данные искры выглядят так - area product score a aa .39 a bb .03 a cc 1.1 a dd .5 b...
146 просмотров
schedule 29.12.2023

Удалить столбец с тем же именем, используя индекс столбца в pyspark
Это мой фрейм данных. Я пытаюсь удалить повторяющиеся столбцы с тем же именем, используя индекс: df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b']) df.show() Выход: +---+---+---+---+---+ | c| b| a| a| b|...
1789 просмотров

Добавить столбец во вновь созданный фрейм данных, выбрав столбец из старого фрейма данных pyspark
Я читаю JSON, и у меня есть словарь (dictn), ключи которого говорят мне, какие все столбцы я должен выбрать из JSON df. Я пытаюсь создать новый df, а затем добавить те столбцы, чьи ключи из dictn присутствовали в JSON, но я получаю приведенную ниже...
255 просмотров

Преобразование многоуровневого JSON в фрейм данных с помощью pyspark
Мой входной файл JSON { "Name": "Test", "Mobile": 12345678, "Boolean": true, "Pets": ["Dog", "cat"], "Address": { "Permanent address": "USA", "current Address": "AU" } } Требование состоит в том, чтобы преобразовать вышеупомянутый...
282 просмотров

Вложенный json и фрейм данных - получение данных из массива
Я пытаюсь получить данные из файла json. df=spark.read.json('/home/data/activities.json',multiLine=True) Содержимое выглядит следующим образом (я включил только 1 строку с данными, их 94): {"meta.count":"94", "data":[...
79 просмотров

От разреженного по столбцу до плотного массива в pyspark
У меня есть два фрейма данных, из которых мне нужно получить информацию, чтобы сгенерировать третий. Первый фрейм данных содержит информацию об итерациях элемента пользователем, например, +-----+-----------+-----------+ |user | itemId |date...
327 просмотров

Метод фильтра данных pySpark
Я использую среду выполнения Databricks 6.3 и использую pySpark. У меня есть кадр данных df_1. SalesVolume — целое число, а AveragePrice — строка. Когда я выполняю приведенный ниже код, код запускается, и я получаю правильный вывод....
144 просмотров
schedule 05.03.2023

Проблема с Pyspark UDF для получения дескрипторов с проблемой openCV
Я начинаю с философии Spark и, в моем случае, с Pyspark. У меня есть небольшой школьный проект, который не кажется сложным, но я работаю над ним много дней и до сих пор не могу добиться успеха. Мне нужно загрузить изображения в папку и извлечь...
151 просмотров
schedule 19.08.2023

Фильтр PySpark: AttributeError: объект 'numpy.float32' не имеет атрибута '_get_object_id'
В PySpark я хотел бы отфильтровать фрейм данных искры, подобный этому temp_df = df1.filter(df1.latitude_float.between(lat_min, lat_max) & df1.longitude_float.between(lng_min, lng_max)) df1 - это фрейм данных, созданный с помощью...
396 просмотров
schedule 21.02.2023