Вопросы по теме 'sparklyr'

Файл портов Sparklyr и ошибка Java MAC OS
> sc <- spark_connect(master = "local") Error in sparkapi::start_shell(master = master, spark_home = spark_home, : Failed to launch Spark shell. Ports file does not exist. Path:...
424 просмотров
schedule 16.11.2022

Динамический mutate_each в dplyr
У меня есть следующие столбцы в моем фрейме данных: c1_sum | c2_sum | d | c1 | c2 Столбцы c# и c#_sum являются динамическими. Я пытаюсь сделать что-то подобное для всех С#: mutate(c#_weight = (d * c#) / c#_sum) Конечным результатом...
57 просмотров
schedule 26.05.2024

Отключить поддержку ульев в sparklyr
Есть ли способ отключить поддержку улья в sparklyr? Как и в SparkR: sparkR.session(master="local[*]", enableHiveSupport=FALSE)
502 просмотров
schedule 05.09.2022

SparklyR разделяет один столбец Spark DataFrame на два столбца
У меня есть фрейм данных, содержащий столбец с именем COL , который структурирован следующим образом: ЗНАЧЕНИЕ1 ### ЗНАЧЕНИЕ2 Следующий код работает library(sparklyr) library(tidyr) library(dplyr) mParams<- collect(filter(input_DF,...
1543 просмотров
schedule 21.08.2022

Как хранить данные в кластере Spark с помощью sparklyr?
Если я подключусь к кластеру Spark, скопирую в него некоторые данные и отключусь,... library(dplyr) library(sparklyr) sc <- spark_connect("local") copy_to(sc, iris) src_tbls(sc) ## [1] "iris" spark_disconnect(sc) то в следующий раз, когда...
980 просмотров
schedule 15.05.2023

Ошибка несоответствия типов для функции фильтра с dplyr по кадру данных искры
В настоящее время я работаю над Rstudio над кластером rhel. Я использую spark 2.0.2 поверх клиента пряжи и установил следующие версии sparklyr и dplyr. sparklyr_0.5.4 ; dplyr_0.5.0 Простой тест на следующих строках приводит к ошибке data =...
161 просмотров
schedule 05.05.2024

Можно ли прочитать файл ORC в Spark Data Frame в sparklyr?
Я знаю, что у sparklyr есть следующие методы чтения файлов: spark_read_csv spark_read_parquet spark_read_json Как насчет чтения файлов orc? Поддерживается ли она еще этой библиотекой? Я знаю, что могу использовать read.orc в...
1212 просмотров
schedule 26.05.2024

Ошибка Неверный метод csv для объекта при использовании spark_read_csv в sparklyr
Я пытаюсь прочитать данные в R из hdfs. Одна вещь, с которой я борюсь при использовании sparklyr , - это расшифровка сообщений об ошибках... потому что я не программист на Java. Рассмотрим этот пример: DO THIS IN R создать кадр данных abalone...
265 просмотров
schedule 30.04.2024

R — Как реплицировать строки в искровом фрейме данных с помощью sparklyr
Есть ли способ реплицировать строки фрейма данных Spark, используя функции sparklyr/dplyr? sc <- spark_connect(master = "spark://####:7077") df_tbl <- copy_to(sc, data.frame(row1 = 1:3, row2 = LETTERS[1:3]), "df") Это желаемый...
719 просмотров
schedule 31.01.2023

Автономный Spark: SparklyR: проблемы с производительностью
Я пытаюсь запустить алгоритмы машинного обучения из библиотеки SparklyR на моем сервере Spark. 1 кластер 8 ядер 24 ГБ RAM Ubuntu 16.04 Искра 2.2 Автономная конфигурация 1 мастер / 2 рабочих Память на исполнителя: 4G 8 ядер /...
467 просмотров

Как ограничить количество строк, прочитанных из файла паркета в sparklyr
У меня есть огромный файл паркета, который не помещается ни в память, ни на диск при чтении, есть ли способ использовать spark_read_parquet для чтения только первых n строк?
698 просмотров
schedule 25.04.2024

Как показать использование памяти DataFrames с помощью sparklyr?
Подобно этому фрагменту кода , который перечисляет использование памяти объектами в локальной R среде, существует ли аналогичная команда для просмотра память DataFrames, доступная в соединении Spark? Например. Что-то похожее на src_tbls(sc) ,...
704 просмотров
schedule 06.09.2022

Преобразование строки в логическую в R с помощью sparklyr
У меня есть 100 миллионов строк, хранящихся во многих файлах .csv в распределенной файловой системе. Я использую spark_read_csv() для загрузки данных без проблем. Многие из моих столбцов хранятся как символьные логические значения: "true" ,...
800 просмотров
schedule 01.10.2022

имена столбцов в `sparklyr :: spark_apply ()` с использованием `dplyr :: mutate ()`
Предполагая, что sc - это существующее соединение Spark (Lyr), имена, указанные в dplyr::mutate() , игнорируются: iris_tbl <- sdf_copy_to(sc, iris) iris_tbl %>% spark_apply(function(e){ library(dplyr) e %>% mutate(slm =...
441 просмотров
schedule 17.02.2022

Неправильный тип в sparklyr: предсказание столбца должно иметь тип org.apache.spark.mllib.linalg.VectorUDT@f71b0bce, но на самом деле он был DoubleType.
Я пытаюсь следовать этому руководству на этом веб-сайте: https://beta.rstudioconnect.com/content/1518/notebook-classification.html#auc_and_accuracy Я не знаю почему, потому что я просто вставил код с веб-сайта. Я также не знаю, как преобразовать...
181 просмотров
schedule 11.03.2023

расчет qchisq в таблице sparklyr
Мне нужно использовать функцию qchisq для столбца фрейма данных sparklyr. Проблема в том, что кажется, что функция qchisq не реализована в Spark. Если я правильно читаю приведенное ниже сообщение об ошибке, sparklyr пытался выполнить функцию под...
111 просмотров

Что эквивалентно функции R list() в sparklyr?
Ниже приведен пример кода R. Я хотел бы сделать то же самое в sparklyr. custTrans1 <- Pdt_table %>% group_by(Main_CustomerID) %>% summarise(Invoice = as.vector(list(Invoice_ID)),Industry = as.vector(list(Industry))) где...
1105 просмотров
schedule 10.07.2022

Spark_Apply For TM библиотека выдает ошибку
Я хочу использовать возможности библиотеки TM в sparklyr . Я использовал функцию spark_apply() для того же. Однако я получаю следующую ошибку Ошибка: невозможно получить spark_connection из объекта класса data.frame когда я запускаю...
100 просмотров
schedule 19.04.2023

как сформировать словарь на основе tfidf sparklyr dataframe
Придется построить матрицу/фрейм данных Tf-idf с терминами/словами в качестве имен столбцов вместо индексов, используя sparklyr. Я выбрал ft_count_vectorizer из-за возможности хранения словарного запаса. Но я застрял после того, как нашел tf-idf, я...
361 просмотров

Sparklyr: отдельные строки на 2 столбца
Я использую sparklyr для проекта. У меня есть Spark Dataframe со списками в некоторых столбцах, и я хотел бы разделить их на несколько строк, т.е. иметь одно значение в каждой строке, точно так же, как separate_rows в dplyr . Итак, в основном...
126 просмотров
schedule 05.05.2023