Вопросы по теме 'pyspark-sql'
Как распаковать набор данных (используя свод)?
Я попробовал новую функцию «поворота» версии 1.6 на больший набор данных . Он имеет 5 656 458 строк, а столбец IndicatorCode содержит 1344 различных кода.
Идея заключалась в том, чтобы использовать свод для «распаковки» (в терминах pandas)...
2257 просмотров
schedule
27.11.2022
Оконная функция не работает в Pyspark sqlcontext
У меня есть фрейм данных, и я хочу свернуть данные за 7 дней и выполнить некоторую агрегацию по некоторым функциям.
У меня есть фреймворк pyspark sql, например ------
Sale_Date|P_1|P_2|P_3|G_1|G_2|G_3|Total_Sale|Sale_Amt|Promo_Disc_Amt |...
2594 просмотров
schedule
15.07.2023
Добавление пакетов Spark в PyCharm IDE
Я настроил свой PyCharm для связи с моей локальной установкой искры в соответствии с в этой ссылке
from pyspark import SparkContext, SQLContext, SparkConf
from operator import add
conf = SparkConf()
conf.setMaster("spark://localhost:7077")...
3258 просмотров
schedule
02.03.2024
pyspark mysql jdbc load Произошла ошибка при вызове o23.load Нет подходящего драйвера
Я использую образ докера sequenceiq / spark на моем Mac, чтобы изучить эти примеры искры , в процессе изучения я обновляю искру внутри этого образа до 1.6.1 согласно этот ответ , и ошибка возникла, когда я запускаю пример Simple Data Operations ,...
57698 просмотров
schedule
23.11.2023
Чтение диапазона файлов в pySpark
Мне нужно читать смежные файлы в pySpark. Следующее работает для меня.
from pyspark.sql import SQLContext
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)
Как прочитать файлы 8-14?
3965 просмотров
schedule
14.12.2023
Apache SPARK с SQLContext:: IndexError
Я пытаюсь выполнить базовый пример, представленный в сегменте Вывод схемы с использованием отражения документации Apache SPARK.
Я делаю это на виртуальной машине Cloudera Quickstart (CDH5).
Пример, который я пытаюсь выполнить, выглядит...
422 просмотров
schedule
04.12.2023
Преобразование строки pyspark в формат даты
У меня есть дата-фрейм pyspark со строковым столбцом в формате MM-dd-yyyy , и я пытаюсь преобразовать его в столбец даты.
Я пытался:
df.select(to_date(df.STRING_COLUMN).alias('new_date')).show()
и я получаю строку нулей. Кто-нибудь может...
271502 просмотров
schedule
30.08.2023
pyspark, сравните две строки в кадре данных
Я пытаюсь сравнить одну строку в кадре данных со следующей, чтобы увидеть разницу в отметке времени. На данный момент данные выглядят так:
itemid | eventid | timestamp
----------------------------
134 | 30 | 2016-07-02 12:01:40
134...
9791 просмотров
schedule
26.07.2022
Получение ошибки при преобразовании RDD в DataFrame PySpark
Я изучаю Apache Spark и столкнулся с чем-то действительно странным. См. этот код ниже:
ClimateRdd = ClimateRdd.map(lambda x: tuple(x))
print ClimateRdd.first()
эти команды возвращают мне эту строку: ('1743-11-01', '4.3839999999999995',...
4730 просмотров
schedule
01.10.2022
Логистическая регрессия, как мультиклассируют классификации с использованием PySpark и вопросы
Я пытаюсь использовать Logistic Regression классифицировать наборы данных, который имеет разреженных Vector в вектор признаков:
Случай 1 : Я попытался с помощью трубопровода ML в MLLIB следующим образом:
# imported library from ML
from...
62 просмотров
schedule
01.06.2024
SPARK Чтение CSV с FTP: входной путь не существует
Я пытаюсь сделать что-то, что должно быть довольно простым, но не могу этого сделать.
У меня есть файл .csv на FTP-сервере от клиента. Путь как таковой:
ftp://[user]:[passwd]@[IP-ADDRESS]/file.csv
Скопировав и вставив адрес, я могу легко...
4807 просмотров
schedule
09.05.2022
Как получить имя столбца фрейма данных в pyspark?
В пандах это можно сделать с помощью column.name.
Но как сделать то же самое, когда его столбец искры фреймворка?
например Вызывающая программа имеет фрейм данных Spark: spark_df
>>> spark_df.columns
['admit', 'gre', 'gpa',...
133041 просмотров
schedule
12.08.2023
Как реализовать автоинкремент в Spark SQL (PySpark)
Мне нужно реализовать столбец автоматического увеличения в моей таблице Spark SQL, как я могу это сделать. Пожалуйста, направь меня. я использую писпарк 2.0
Спасибо, Калян.
5574 просмотров
schedule
16.02.2024
как выполнить оператор NOT EXIST в искре
Теперь я преобразовываю запрос сервера sql в spark. Я столкнулся с проблемой преобразования данного запроса.
and not exists (Select 1 from @TT t2 where t2.TID = f.ID)
я работал над этим и понял, что искра не поддерживает команду «не...
1641 просмотров
schedule
18.09.2023
На устройстве не осталось места, задание Spark прекращено: пока нет подходящего решения в stackoverflow
У меня есть следующая файловая структура, если я использую df -h на любом из подчиненных или ведущих устройств
Filesystem Size Used Avail Use% Mounted on
/dev/xvda1 7.9G 4.4G 3.5G 57% /
tmpfs...
339 просмотров
schedule
11.05.2022
Spark SQL с использованием Python: невозможно создать экземпляр org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Я хочу протестировать базовые вещи с помощью Spark SQL. Я хочу загрузить csv. файл, сохраненный на моем ноутбуке, и запустить на нем несколько sql-запросов. Но почему-то я не могу загрузить данные с помощью sqlContext. Я получаю сообщение об...
10635 просмотров
schedule
25.01.2024
Pyspark - Загрузить файл: путь не существует
Я новичок в Spark. Я пытаюсь прочитать локальный CSV-файл в кластере EMR. Файл находится в: / home / hadoop /. Вот сценарий, который я использую:
spark = SparkSession \
.builder \
.appName("Protob Conversion to Parquet") \...
36195 просмотров
schedule
18.04.2022
Загружает ли Apache Spark все данные из целевой базы данных?
Я хочу использовать Apache Spark и подключиться к Vertica с помощью JDBC.
В базе данных Vertica у меня есть 100 миллионов записей, а искровой код выполняется на другом сервере.
Когда я запускаю запрос в Spark и отслеживаю использование сети,...
1669 просмотров
schedule
19.11.2022
pyspark Измените значение столбца перед использованием groupby для этого столбца
У меня есть эти данные json, я хочу агрегировать по столбцу «отметка времени» ежечасно, суммируя данные в столбцах «b» и «a».
{"a":1 , "b":1, "timestamp":"2017-01-26T01:14:55.719214Z"}
{"a":1 , "b":1,"timestamp":"2017-01-26T01:14:55.719214Z"}...
391 просмотров
schedule
10.09.2022
приведение нескольких столбцов к типу
Должно быть легко ответить на вопрос... Я делаю это неправильно? Могу ли я не создавать несколько столбцов?
>>> val results2 = results.select( results["HCAHPS Base Score"].cast(IntegerType).as(results["HCAHPS Base Score"]),...
1711 просмотров
schedule
24.02.2023