Вопросы по теме 'pyspark-dataframes'
Процентный расчет и назначение нового столбца в том же фрейме данных
У меня есть фрейм данных искры, как показано ниже:
+-------+----------+-----+
| Status| date |count|
+-------+----------+-----+
|Success|2019-09-06|23596|
|Failure|2019-09-06| 2494|
|Failure|2019-09-07| 1863|
|Success|2019-09-07|22399|
Я...
32 просмотров
schedule
13.05.2024
операция искрового соединения для двух фреймов данных
когда df1 и df2 имеют одинаковые строки и df1 и df2 не имеют повторяющегося значения какова сложность операции соединения df1.join (df2)? мой вопрос - взять O (n ^ 2)
и можно ли отсортировать фрейм данных и повысить его производительность?...
35 просмотров
schedule
03.03.2024
PicklingError в Pyspark
Я написал ниже функцию в pyspark, чтобы получить deptid и вернуть фрейм данных, который я хочу использовать в spark sql.
защита get_max_salary (дептид):
sql_salary="выберите максимальную (зарплату) сотрудника, где depid = {}"
df_salary =...
440 просмотров
schedule
08.11.2022
Добавление элемента списка в качестве столбца в существующий фрейм данных pyspark
У меня есть список lists=[0,1,2,3,5,6,7] . Порядок не является последовательным. У меня есть фреймворк pyspark с 9 столбцами.
+-------------------+--------+--------+--------+--------+--------+--------+---------------+-----+----+
|...
1573 просмотров
schedule
26.08.2023
Поле DOB в Pyspark
Я хочу рассчитать возраст и из поля DOB. Но в моем коде я жестко это кодирую. Но нужно делать динамично, как сегодня - ДОБ. Точно так же я также хочу рассчитать продолжительность от start_date. Мой фрейм данных выглядит так -
id...
347 просмотров
schedule
30.10.2023
Найдите процентили значений из распределений категорий в PySpark
У меня есть следующий фрейм данных PySpark (скажем, df ). В нем есть столбцы name , timestamp , category и value .
+------+-------------------+--------+-----+
| name| timestamp|category|value|...
164 просмотров
schedule
18.11.2023
как удалить пробелы в заголовке столбцов в pyspark и как преобразовать строковую дату в формат даты и времени
-Я новичок в pyspark, я пытаюсь удалить пробелы, меня не собираются удалять после этого. Я пытался преобразовать тип строки даты в формат DateTime, который я не преобразовал. пожалуйста, помогите мне, как это сделать.
Я пробовал это:...
52 просмотров
schedule
08.07.2022
Проверка значений одного столбца в столбце в другом фрейме данных в pyspark
У меня есть два фрейма данных Pyspark (DF1 и DF2). Я хочу проверить, доступны ли города в DF1 в столбце городов в DF2, и если да, то вернуть название страны из DF2 и создать новый фрейм данных DF3 с Sl.No, City и Country.
DF1 Sl.No City 1 a 2 b...
183 просмотров
schedule
21.03.2022
Как использовать SparkSQL для выбора строк в Spark DF на основе нескольких условий
Я относительно новичок в pyspark, и у меня есть фрейм данных Spark со столбцом даты «Issue_Date». Столбец «Issue_Date» содержит несколько дат за 1970-2060 гг. (Из-за ошибок). На основе фрейма данных Spark я создал на его основе временную таблицу и...
49 просмотров
schedule
05.03.2022
Извлечение ключевых слов с помощью Flashtext в PySpark
Я пытаюсь извлечь ключевые слова из столбца имен меню в фреймворке PySpark.
Ниже показано, как был создан обработчик ключевых слов. keywords - это список ключевых слов, например ['sandwiches', 'burgers', ...] .
from flashtext import...
393 просмотров
schedule
23.01.2023
Найдите похожие строки, присутствующие в столбце DataFrame, без использования цикла for в PySpark
У меня есть DataFrame, содержащий столбец со строками. Я хочу найти похожие строки и пометить их флажком. Я использую функцию ratio из модуля python-Levenshtein и хотите пометить строки с коэффициентом выше 0,90 как «похожие». Ниже приведен...
383 просмотров
schedule
15.04.2022
Мудрый рейтинг в PySpark
Мои данные искры выглядят так -
area product score
a aa .39
a bb .03
a cc 1.1
a dd .5
b...
146 просмотров
schedule
29.12.2023
Удалить столбец с тем же именем, используя индекс столбца в pyspark
Это мой фрейм данных. Я пытаюсь удалить повторяющиеся столбцы с тем же именем, используя индекс:
df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b'])
df.show()
Выход:
+---+---+---+---+---+
| c| b| a| a| b|...
1789 просмотров
schedule
26.03.2023
Добавить столбец во вновь созданный фрейм данных, выбрав столбец из старого фрейма данных pyspark
Я читаю JSON, и у меня есть словарь (dictn), ключи которого говорят мне, какие все столбцы я должен выбрать из JSON df.
Я пытаюсь создать новый df, а затем добавить те столбцы, чьи ключи из dictn присутствовали в JSON, но я получаю приведенную ниже...
255 просмотров
schedule
17.02.2024
Преобразование многоуровневого JSON в фрейм данных с помощью pyspark
Мой входной файл JSON
{
"Name": "Test",
"Mobile": 12345678,
"Boolean": true,
"Pets": ["Dog", "cat"],
"Address": {
"Permanent address": "USA",
"current Address": "AU"
}
}
Требование состоит в том, чтобы преобразовать вышеупомянутый...
282 просмотров
schedule
28.03.2024
Вложенный json и фрейм данных - получение данных из массива
Я пытаюсь получить данные из файла json.
df=spark.read.json('/home/data/activities.json',multiLine=True)
Содержимое выглядит следующим образом (я включил только 1 строку с данными, их 94):
{"meta.count":"94",
"data":[...
79 просмотров
schedule
28.03.2022
От разреженного по столбцу до плотного массива в pyspark
У меня есть два фрейма данных, из которых мне нужно получить информацию, чтобы сгенерировать третий. Первый фрейм данных содержит информацию об итерациях элемента пользователем, например,
+-----+-----------+-----------+
|user | itemId |date...
327 просмотров
schedule
09.12.2022
Метод фильтра данных pySpark
Я использую среду выполнения Databricks 6.3 и использую pySpark. У меня есть кадр данных df_1. SalesVolume — целое число, а AveragePrice — строка.
Когда я выполняю приведенный ниже код, код запускается, и я получаю правильный вывод....
144 просмотров
schedule
05.03.2023
Проблема с Pyspark UDF для получения дескрипторов с проблемой openCV
Я начинаю с философии Spark и, в моем случае, с Pyspark.
У меня есть небольшой школьный проект, который не кажется сложным, но я работаю над ним много дней и до сих пор не могу добиться успеха.
Мне нужно загрузить изображения в папку и извлечь...
151 просмотров
schedule
19.08.2023
Фильтр PySpark: AttributeError: объект 'numpy.float32' не имеет атрибута '_get_object_id'
В PySpark я хотел бы отфильтровать фрейм данных искры, подобный этому
temp_df = df1.filter(df1.latitude_float.between(lat_min, lat_max) & df1.longitude_float.between(lng_min, lng_max))
df1 - это фрейм данных, созданный с помощью...
396 просмотров
schedule
21.02.2023