Вопросы по теме 'sparkr'

hdfs: нет такого файла или ошибки каталога при чтении parquetfile в оболочке sparkR
Я хочу прочитать parquetFile в оболочке sparkR из системы hdfs. Итак, я делаю это: ./sparkR --master yarn-client sqlContext <- sparkRSQL.init(sc) path<-"hdfs://year=2015/month=1/day=9" AppDF <- parquetFile(sqlContext, path)...
434 просмотров
schedule 26.08.2023

Как использовать getItem(x,) в sparkR и как подмножить определенное значение в столбце?
У меня есть кадр данных sparkR, cust_sales , мне нужно извлечь только значение CQ98901282 из столбца cust_id , в R мы используем cust_sales$cust_id[3] . Мое предположение: можем ли мы использовать getItem(x, ...) для извлечения, если это...
2144 просмотров

SparkR не может загрузить данные в R
Я выполнил те же самые шаги из других сообщений, таких как этот для создания искрового фрейма данных в R. Sys.setenv(SPARK_HOME = "E:/spark-1.5.0-bin-hadoop2.6") Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.2.0"...
352 просмотров
schedule 16.03.2024

Поддержка SparkR DataFrame для символов UTF-8 (поддержка нескольких языков)
Я проверил с помощью Scala, что кадр данных содержит символы UTF-8, отличные от ascii, с использованием df.show() . Spark-SQL также показывает правильную кодировку. Однако, когда я пытаюсь показать DF (df) с помощью SparkR, символы UTF-8...
726 просмотров

SparkR: сбор данных из фрейма данных R не работает с RStudio
Я пытаюсь выполнить очень простое действие Spark ( head() ) для сбора выходных данных из фрейма данных Spark, который я создал из фрейма данных R. Я хочу сделать это в режиме развертывания yarn-client . Я установил R на все узлы кластера....
603 просмотров
schedule 16.08.2023

Преобразование в R data.frame из кадра данных SparkR никогда не завершается для 2 миллионов записей.
Я использую SparkR на сервере R Studio. После создания sqlContext я обработал несколько таблиц в sparkR, и у меня осталась финальная таблица из 2,2 миллиона записей, которую я хотел преобразовать в R data.frame для разработки регрессионных моделей с...
808 просмотров
schedule 01.02.2023

загрузка фрейма данных SparkR в Hive
Мне нужно загрузить DataFrame, созданный в SparkR, для загрузки в Hive. #created a dataframe df_test df_test <- createDataFrame(sqlContext, data.frame(mon = c(1,2,3,4,5), year = c(2011,2012,2013,2014,2015))) #initialized the Hive context...
1164 просмотров
schedule 23.09.2022

Как убить работу SparkR
Я использую Spark 2.0.0, и у меня есть веб-интерфейс RStudio, через который я использую пакет SparkR. При запуске большой программы, если мне нужно убить задание во время процесса, как я могу это сделать? Кнопка STOP в R не работает, и если я...
653 просмотров
schedule 09.09.2022

Как настроить fs.s3.awsAccessKeyId и fs.s3.awsSecretAccessKey в SparkR?
Я пытаюсь получить доступ к файлу паркета, хранящемуся в корзине S3, с помощью sparkR со spark 2.1. Я пытался настроить секреты aws таким образом. Sys.setenv(AWS_ACCESS_KEY_ID="XXXX") Sys.setenv(AWS_SECRET_ACCESS_KEY="XXXX") Но возвращает...
1517 просмотров
schedule 30.09.2023

Можно ли прочитать файл ORC в Spark Data Frame в sparklyr?
Я знаю, что у sparklyr есть следующие методы чтения файлов: spark_read_csv spark_read_parquet spark_read_json Как насчет чтения файлов orc? Поддерживается ли она еще этой библиотекой? Я знаю, что могу использовать read.orc в...
1212 просмотров
schedule 26.05.2024

Ошибка Неверный метод csv для объекта при использовании spark_read_csv в sparklyr
Я пытаюсь прочитать данные в R из hdfs. Одна вещь, с которой я борюсь при использовании sparklyr , - это расшифровка сообщений об ошибках... потому что я не программист на Java. Рассмотрим этот пример: DO THIS IN R создать кадр данных abalone...
265 просмотров
schedule 30.04.2024

Подмножество SparkR DataFrame на основе значений столбца, совпадающих со значениями столбца другого DataFrame
У меня есть два кадра данных SparkR, newHiresDF и salesTeamDF . Я хочу получить подмножество newHiresDF на основе значений newHiresDF$name , которые находятся в salesTeamDF$name , но я не могу найти способ сделать это. Ниже приведен код моих...
228 просмотров

Можете ли вы сделать широковещательное соединение с SparkR?
Я пытаюсь присоединить большой фрейм данных к меньшему фрейму данных, и я увидел, что широковещательное соединение является эффективным способом сделать это, согласно этому публикация . Однако я не смог найти функцию трансляции в документации...
367 просмотров
schedule 16.12.2023

SparkR сохранить модель машинного обучения
Как сохранить модель SparkR, загрузить ее отдельно и спрогнозировать? Spark версии 2.0 # Load training data df <- read.df("data/mllib/sample_libsvm_data.txt", source = "libsvm") training <- df testing <- df # Fit a random forest...
370 просмотров
schedule 15.11.2022

Создание фреймов данных в SparkR?
Я здесь новенький.... так что извините, если задаю наивные вопросы!!! Я использую SparkR в Rstudio. R версия 3.3.2 Искра версия 2.0.2 Я могу успешно запустить Spark в студии R, и я вижу, используя веб-интерфейс. localhost:4040, что моя искра...
47 просмотров
schedule 26.07.2023

Как записать исходный код JDBC с помощью SparkR 1.6.0?
С помощью SparkR 1.6.0 я могу читать из источника JDBC следующий код: jdbc_url <- "jdbc:mysql://localhost:3306/dashboard?user=<username>&password=<password>" df <- sqlContext %>% loadDF(source = "jdbc",...
643 просмотров
schedule 24.11.2023

Запуск модели R с помощью SparkR
Спасибо заранее за ваш вклад. Я новичок в ML. Я разработал модель R (используя R studio на моем локальном компьютере) и хочу развернуть ее в кластере hadoop с установленной R Studio. Я хочу использовать SparkR для получения высокопроизводительных...
130 просмотров
schedule 05.02.2022

SparkR: как извлечь строки, содержащие нулевые значения в определенном столбце
Отказ от ответственности: у меня практически нет опыта работы со SparkR Возьмите следующий кадр данных: ID Date1 Date2 58844880 04/11/16 NaN 59745846 04/12/16 04/14/16 59743311 04/13/16 NaN 59745848 04/14/16...
750 просмотров
schedule 10.06.2022

SparkR org.apache.spark.SparkException: рабочий процесс R неожиданно завершился
Я пытаюсь выполнить SparkR gapply , по сути, когда я пытаюсь запустить это с моим входным файлом, ограниченным примерно 300 тыс. строк, он работает, однако при масштабировании примерно до 1,2 млн строк я получаю следующее повторяющееся исключение в...
332 просмотров
schedule 17.02.2024

Spark: Как собрать большой объем данных без нехватки памяти
У меня есть следующая проблема: Я делаю sql-запрос к набору файлов паркета в HDFS, а затем собираю, чтобы получить результат. Проблема в том, что когда строк много, я получаю сообщение об ошибке нехватки памяти. Этот запрос требует...
2970 просмотров
schedule 17.12.2023