Статьи по теме pyspark-sql

Вопросы по теме 'pyspark-sql'

Как распаковать набор данных (используя свод)?

Я попробовал новую функцию «поворота» версии 1.6 на больший набор данных . Он имеет 5 656 458 строк, а столбец IndicatorCode содержит 1344 различных кода. Идея заключалась в том, чтобы использовать свод для «распаковки» (в терминах pandas)...

2257 просмотров

apache-spark apache-spark-sql pyspark-sql

27.11.2022

Оконная функция не работает в Pyspark sqlcontext

У меня есть фрейм данных, и я хочу свернуть данные за 7 дней и выполнить некоторую агрегацию по некоторым функциям. У меня есть фреймворк pyspark sql, например ------ Sale_Date|P_1|P_2|P_3|G_1|G_2|G_3|Total_Sale|Sale_Amt|Promo_Disc_Amt |...

2594 просмотров

apache-spark pyspark hadoop apache-spark-sql pyspark-sql

15.07.2023

Добавление пакетов Spark в PyCharm IDE

Я настроил свой PyCharm для связи с моей локальной установкой искры в соответствии с в этой ссылке from pyspark import SparkContext, SQLContext, SparkConf from operator import add conf = SparkConf() conf.setMaster("spark://localhost:7077")...

3258 просмотров

python pycharm pyspark pyspark-sql

02.03.2024

pyspark mysql jdbc load Произошла ошибка при вызове o23.load Нет подходящего драйвера

Я использую образ докера sequenceiq / spark на моем Mac, чтобы изучить эти примеры искры , в процессе изучения я обновляю искру внутри этого образа до 1.6.1 согласно этот ответ , и ошибка возникла, когда я запускаю пример Simple Data Operations ,...

57698 просмотров

mysql docker pyspark jdbc pyspark-sql

23.11.2023

Чтение диапазона файлов в pySpark

Мне нужно читать смежные файлы в pySpark. Следующее работает для меня. from pyspark.sql import SQLContext file = "events.parquet/exportDay=2015090[1-7]" df = sqlContext.read.load(file) Как прочитать файлы 8-14?

3965 просмотров

python apache-spark pyspark pyspark-sql

14.12.2023

Apache SPARK с SQLContext:: IndexError

Я пытаюсь выполнить базовый пример, представленный в сегменте Вывод схемы с использованием отражения документации Apache SPARK. Я делаю это на виртуальной машине Cloudera Quickstart (CDH5). Пример, который я пытаюсь выполнить, выглядит...

422 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql

04.12.2023

Преобразование строки pyspark в формат даты

У меня есть дата-фрейм pyspark со строковым столбцом в формате MM-dd-yyyy , и я пытаюсь преобразовать его в столбец даты. Я пытался: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() и я получаю строку нулей. Кто-нибудь может...

271502 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql

30.08.2023

pyspark, сравните две строки в кадре данных

Я пытаюсь сравнить одну строку в кадре данных со следующей, чтобы увидеть разницу в отметке времени. На данный момент данные выглядят так: itemid | eventid | timestamp ---------------------------- 134 | 30 | 2016-07-02 12:01:40 134...

9791 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

26.07.2022

Получение ошибки при преобразовании RDD в DataFrame PySpark

Я изучаю Apache Spark и столкнулся с чем-то действительно странным. См. этот код ниже: ClimateRdd = ClimateRdd.map(lambda x: tuple(x)) print ClimateRdd.first() эти команды возвращают мне эту строку: ('1743-11-01', '4.3839999999999995',...

4730 просмотров

python apache-spark pyspark pyspark-sql

01.10.2022

Логистическая регрессия, как мультиклассируют классификации с использованием PySpark и вопросы

Я пытаюсь использовать Logistic Regression классифицировать наборы данных, который имеет разреженных Vector в вектор признаков: Случай 1 : Я попытался с помощью трубопровода ML в MLLIB следующим образом: # imported library from ML from...

62 просмотров

pyspark apache-spark-mllib apache-spark-ml logistic-regression pyspark-sql

01.06.2024

SPARK Чтение CSV с FTP: входной путь не существует

Я пытаюсь сделать что-то, что должно быть довольно простым, но не могу этого сделать. У меня есть файл .csv на FTP-сервере от клиента. Путь как таковой: ftp://[user]:[passwd]@[IP-ADDRESS]/file.csv Скопировав и вставив адрес, я могу легко...

4807 просмотров

csv apache-spark pyspark ftp pyspark-sql

09.05.2022

Как получить имя столбца фрейма данных в pyspark?

В пандах это можно сделать с помощью column.name. Но как сделать то же самое, когда его столбец искры фреймворка? например Вызывающая программа имеет фрейм данных Spark: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa',...

133041 просмотров

pyspark pyspark-sql

12.08.2023

Как реализовать автоинкремент в Spark SQL (PySpark)

Мне нужно реализовать столбец автоматического увеличения в моей таблице Spark SQL, как я могу это сделать. Пожалуйста, направь меня. я использую писпарк 2.0 Спасибо, Калян.

5574 просмотров

apache-spark apache-spark-sql hive pyspark-sql

16.02.2024

как выполнить оператор NOT EXIST в искре

Теперь я преобразовываю запрос сервера sql в spark. Я столкнулся с проблемой преобразования данного запроса. and not exists (Select 1 from @TT t2 where t2.TID = f.ID) я работал над этим и понял, что искра не поддерживает команду «не...

1641 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql

18.09.2023

На устройстве не осталось места, задание Spark прекращено: пока нет подходящего решения в stackoverflow

У меня есть следующая файловая структура, если я использую df -h на любом из подчиненных или ведущих устройств Filesystem Size Used Avail Use% Mounted on /dev/xvda1 7.9G 4.4G 3.5G 57% / tmpfs...

339 просмотров

java apache-spark pyspark apache-spark-sql pyspark-sql

11.05.2022

Spark SQL с использованием Python: невозможно создать экземпляр org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

Я хочу протестировать базовые вещи с помощью Spark SQL. Я хочу загрузить csv. файл, сохраненный на моем ноутбуке, и запустить на нем несколько sql-запросов. Но почему-то я не могу загрузить данные с помощью sqlContext. Я получаю сообщение об...

10635 просмотров

pyspark pyspark-sql

25.01.2024

Pyspark - Загрузить файл: путь не существует

Я новичок в Spark. Я пытаюсь прочитать локальный CSV-файл в кластере EMR. Файл находится в: / home / hadoop /. Вот сценарий, который я использую: spark = SparkSession \ .builder \ .appName("Protob Conversion to Parquet") \...

36195 просмотров

apache-spark pyspark amazon-emr pyspark-sql emr

18.04.2022

Загружает ли Apache Spark все данные из целевой базы данных?

Я хочу использовать Apache Spark и подключиться к Vertica с помощью JDBC. В базе данных Vertica у меня есть 100 миллионов записей, а искровой код выполняется на другом сервере. Когда я запускаю запрос в Spark и отслеживаю использование сети,...

1669 просмотров

apache-spark jdbc vertica pyspark-sql

19.11.2022

pyspark Измените значение столбца перед использованием groupby для этого столбца

У меня есть эти данные json, я хочу агрегировать по столбцу «отметка времени» ежечасно, суммируя данные в столбцах «b» и «a». {"a":1 , "b":1, "timestamp":"2017-01-26T01:14:55.719214Z"} {"a":1 , "b":1,"timestamp":"2017-01-26T01:14:55.719214Z"}...

391 просмотров

apache-spark pyspark apache-spark-sql spark-streaming pyspark-sql

10.09.2022

приведение нескольких столбцов к типу

Должно быть легко ответить на вопрос... Я делаю это неправильно? Могу ли я не создавать несколько столбцов? >>> val results2 = results.select( results["HCAHPS Base Score"].cast(IntegerType).as(results["HCAHPS Base Score"]),...

1711 просмотров

pyspark pyspark-sql

24.02.2023

Вопросы по теме 'pyspark-sql'

Похожие вопросы