Вопросы по теме 'pyspark-sql'

Как распаковать набор данных (используя свод)?
Я попробовал новую функцию «поворота» версии 1.6 на больший набор данных . Он имеет 5 656 458 строк, а столбец IndicatorCode содержит 1344 различных кода. Идея заключалась в том, чтобы использовать свод для «распаковки» (в терминах pandas)...
2257 просмотров

Оконная функция не работает в Pyspark sqlcontext
У меня есть фрейм данных, и я хочу свернуть данные за 7 дней и выполнить некоторую агрегацию по некоторым функциям. У меня есть фреймворк pyspark sql, например ------ Sale_Date|P_1|P_2|P_3|G_1|G_2|G_3|Total_Sale|Sale_Amt|Promo_Disc_Amt |...
2594 просмотров

Добавление пакетов Spark в PyCharm IDE
Я настроил свой PyCharm для связи с моей локальной установкой искры в соответствии с в этой ссылке from pyspark import SparkContext, SQLContext, SparkConf from operator import add conf = SparkConf() conf.setMaster("spark://localhost:7077")...
3258 просмотров
schedule 02.03.2024

pyspark mysql jdbc load Произошла ошибка при вызове o23.load Нет подходящего драйвера
Я использую образ докера sequenceiq / spark на моем Mac, чтобы изучить эти примеры искры , в процессе изучения я обновляю искру внутри этого образа до 1.6.1 согласно этот ответ , и ошибка возникла, когда я запускаю пример Simple Data Operations ,...
57698 просмотров
schedule 23.11.2023

Чтение диапазона файлов в pySpark
Мне нужно читать смежные файлы в pySpark. Следующее работает для меня. from pyspark.sql import SQLContext file = "events.parquet/exportDay=2015090[1-7]" df = sqlContext.read.load(file) Как прочитать файлы 8-14?
3965 просмотров
schedule 14.12.2023

Apache SPARK с SQLContext:: IndexError
Я пытаюсь выполнить базовый пример, представленный в сегменте Вывод схемы с использованием отражения документации Apache SPARK. Я делаю это на виртуальной машине Cloudera Quickstart (CDH5). Пример, который я пытаюсь выполнить, выглядит...
422 просмотров

Преобразование строки pyspark в формат даты
У меня есть дата-фрейм pyspark со строковым столбцом в формате MM-dd-yyyy , и я пытаюсь преобразовать его в столбец даты. Я пытался: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() и я получаю строку нулей. Кто-нибудь может...
271502 просмотров

pyspark, сравните две строки в кадре данных
Я пытаюсь сравнить одну строку в кадре данных со следующей, чтобы увидеть разницу в отметке времени. На данный момент данные выглядят так: itemid | eventid | timestamp ---------------------------- 134 | 30 | 2016-07-02 12:01:40 134...
9791 просмотров

Получение ошибки при преобразовании RDD в DataFrame PySpark
Я изучаю Apache Spark и столкнулся с чем-то действительно странным. См. этот код ниже: ClimateRdd = ClimateRdd.map(lambda x: tuple(x)) print ClimateRdd.first() эти команды возвращают мне эту строку: ('1743-11-01', '4.3839999999999995',...
4730 просмотров
schedule 01.10.2022

Логистическая регрессия, как мультиклассируют классификации с использованием PySpark и вопросы
Я пытаюсь использовать Logistic Regression классифицировать наборы данных, который имеет разреженных Vector в вектор признаков: Случай 1 : Я попытался с помощью трубопровода ML в MLLIB следующим образом: # imported library from ML from...
62 просмотров

SPARK Чтение CSV с FTP: входной путь не существует
Я пытаюсь сделать что-то, что должно быть довольно простым, но не могу этого сделать. У меня есть файл .csv на FTP-сервере от клиента. Путь как таковой: ftp://[user]:[passwd]@[IP-ADDRESS]/file.csv Скопировав и вставив адрес, я могу легко...
4807 просмотров
schedule 09.05.2022

Как получить имя столбца фрейма данных в pyspark?
В пандах это можно сделать с помощью column.name. Но как сделать то же самое, когда его столбец искры фреймворка? например Вызывающая программа имеет фрейм данных Spark: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa',...
133041 просмотров
schedule 12.08.2023

Как реализовать автоинкремент в Spark SQL (PySpark)
Мне нужно реализовать столбец автоматического увеличения в моей таблице Spark SQL, как я могу это сделать. Пожалуйста, направь меня. я использую писпарк 2.0 Спасибо, Калян.
5574 просмотров

как выполнить оператор NOT EXIST в искре
Теперь я преобразовываю запрос сервера sql в spark. Я столкнулся с проблемой преобразования данного запроса. and not exists (Select 1 from @TT t2 where t2.TID = f.ID) я работал над этим и понял, что искра не поддерживает команду «не...
1641 просмотров

На устройстве не осталось места, задание Spark прекращено: пока нет подходящего решения в stackoverflow
У меня есть следующая файловая структура, если я использую df -h на любом из подчиненных или ведущих устройств Filesystem Size Used Avail Use% Mounted on /dev/xvda1 7.9G 4.4G 3.5G 57% / tmpfs...
339 просмотров

Spark SQL с использованием Python: невозможно создать экземпляр org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Я хочу протестировать базовые вещи с помощью Spark SQL. Я хочу загрузить csv. файл, сохраненный на моем ноутбуке, и запустить на нем несколько sql-запросов. Но почему-то я не могу загрузить данные с помощью sqlContext. Я получаю сообщение об...
10635 просмотров
schedule 25.01.2024

Pyspark - Загрузить файл: путь не существует
Я новичок в Spark. Я пытаюсь прочитать локальный CSV-файл в кластере EMR. Файл находится в: / home / hadoop /. Вот сценарий, который я использую: spark = SparkSession \ .builder \ .appName("Protob Conversion to Parquet") \...
36195 просмотров

Загружает ли Apache Spark все данные из целевой базы данных?
Я хочу использовать Apache Spark и подключиться к Vertica с помощью JDBC. В базе данных Vertica у меня есть 100 миллионов записей, а искровой код выполняется на другом сервере. Когда я запускаю запрос в Spark и отслеживаю использование сети,...
1669 просмотров
schedule 19.11.2022

pyspark Измените значение столбца перед использованием groupby для этого столбца
У меня есть эти данные json, я хочу агрегировать по столбцу «отметка времени» ежечасно, суммируя данные в столбцах «b» и «a». {"a":1 , "b":1, "timestamp":"2017-01-26T01:14:55.719214Z"} {"a":1 , "b":1,"timestamp":"2017-01-26T01:14:55.719214Z"}...
391 просмотров

приведение нескольких столбцов к типу
Должно быть легко ответить на вопрос... Я делаю это неправильно? Могу ли я не создавать несколько столбцов? >>> val results2 = results.select( results["HCAHPS Base Score"].cast(IntegerType).as(results["HCAHPS Base Score"]),...
1711 просмотров
schedule 24.02.2023