Вопросы по теме 'sparkr'
hdfs: нет такого файла или ошибки каталога при чтении parquetfile в оболочке sparkR
Я хочу прочитать parquetFile в оболочке sparkR из системы hdfs. Итак, я делаю это:
./sparkR --master yarn-client
sqlContext <- sparkRSQL.init(sc)
path<-"hdfs://year=2015/month=1/day=9"
AppDF <- parquetFile(sqlContext, path)...
434 просмотров
schedule
26.08.2023
Как использовать getItem(x,) в sparkR и как подмножить определенное значение в столбце?
У меня есть кадр данных sparkR, cust_sales , мне нужно извлечь только значение CQ98901282 из столбца cust_id , в R мы используем cust_sales$cust_id[3] .
Мое предположение: можем ли мы использовать getItem(x, ...) для извлечения, если это...
2144 просмотров
schedule
28.07.2023
SparkR не может загрузить данные в R
Я выполнил те же самые шаги из других сообщений, таких как этот для создания искрового фрейма данных в R.
Sys.setenv(SPARK_HOME = "E:/spark-1.5.0-bin-hadoop2.6")
Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.2.0"...
352 просмотров
schedule
16.03.2024
Поддержка SparkR DataFrame для символов UTF-8 (поддержка нескольких языков)
Я проверил с помощью Scala, что кадр данных содержит символы UTF-8, отличные от ascii, с использованием df.show() . Spark-SQL также показывает правильную кодировку.
Однако, когда я пытаюсь показать DF (df) с помощью SparkR, символы UTF-8...
726 просмотров
schedule
07.01.2023
SparkR: сбор данных из фрейма данных R не работает с RStudio
Я пытаюсь выполнить очень простое действие Spark ( head() ) для сбора выходных данных из фрейма данных Spark, который я создал из фрейма данных R. Я хочу сделать это в режиме развертывания yarn-client . Я установил R на все узлы кластера....
603 просмотров
schedule
16.08.2023
Преобразование в R data.frame из кадра данных SparkR никогда не завершается для 2 миллионов записей.
Я использую SparkR на сервере R Studio. После создания sqlContext я обработал несколько таблиц в sparkR, и у меня осталась финальная таблица из 2,2 миллиона записей, которую я хотел преобразовать в R data.frame для разработки регрессионных моделей с...
808 просмотров
schedule
01.02.2023
загрузка фрейма данных SparkR в Hive
Мне нужно загрузить DataFrame, созданный в SparkR, для загрузки в Hive.
#created a dataframe df_test
df_test <- createDataFrame(sqlContext, data.frame(mon = c(1,2,3,4,5), year = c(2011,2012,2013,2014,2015)))
#initialized the Hive context...
1164 просмотров
schedule
23.09.2022
Как убить работу SparkR
Я использую Spark 2.0.0, и у меня есть веб-интерфейс RStudio, через который я использую пакет SparkR.
При запуске большой программы, если мне нужно убить задание во время процесса, как я могу это сделать?
Кнопка STOP в R не работает, и если я...
653 просмотров
schedule
09.09.2022
Как настроить fs.s3.awsAccessKeyId и fs.s3.awsSecretAccessKey в SparkR?
Я пытаюсь получить доступ к файлу паркета, хранящемуся в корзине S3, с помощью sparkR со spark 2.1.
Я пытался настроить секреты aws таким образом.
Sys.setenv(AWS_ACCESS_KEY_ID="XXXX")
Sys.setenv(AWS_SECRET_ACCESS_KEY="XXXX")
Но возвращает...
1517 просмотров
schedule
30.09.2023
Можно ли прочитать файл ORC в Spark Data Frame в sparklyr?
Я знаю, что у sparklyr есть следующие методы чтения файлов:
spark_read_csv
spark_read_parquet
spark_read_json
Как насчет чтения файлов orc? Поддерживается ли она еще этой библиотекой?
Я знаю, что могу использовать read.orc в...
1212 просмотров
schedule
26.05.2024
Ошибка Неверный метод csv для объекта при использовании spark_read_csv в sparklyr
Я пытаюсь прочитать данные в R из hdfs. Одна вещь, с которой я борюсь при использовании sparklyr , - это расшифровка сообщений об ошибках... потому что я не программист на Java.
Рассмотрим этот пример:
DO THIS IN R
создать кадр данных abalone...
265 просмотров
schedule
30.04.2024
Подмножество SparkR DataFrame на основе значений столбца, совпадающих со значениями столбца другого DataFrame
У меня есть два кадра данных SparkR, newHiresDF и salesTeamDF . Я хочу получить подмножество newHiresDF на основе значений newHiresDF$name , которые находятся в salesTeamDF$name , но я не могу найти способ сделать это. Ниже приведен код моих...
228 просмотров
schedule
27.08.2022
Можете ли вы сделать широковещательное соединение с SparkR?
Я пытаюсь присоединить большой фрейм данных к меньшему фрейму данных, и я увидел, что широковещательное соединение является эффективным способом сделать это, согласно этому публикация .
Однако я не смог найти функцию трансляции в документации...
367 просмотров
schedule
16.12.2023
SparkR сохранить модель машинного обучения
Как сохранить модель SparkR, загрузить ее отдельно и спрогнозировать? Spark версии 2.0
# Load training data
df <- read.df("data/mllib/sample_libsvm_data.txt", source = "libsvm")
training <- df
testing <- df
# Fit a random forest...
370 просмотров
schedule
15.11.2022
Создание фреймов данных в SparkR?
Я здесь новенький.... так что извините, если задаю наивные вопросы!!!
Я использую SparkR в Rstudio.
R версия 3.3.2 Искра версия 2.0.2
Я могу успешно запустить Spark в студии R, и я вижу, используя веб-интерфейс. localhost:4040, что моя искра...
47 просмотров
schedule
26.07.2023
Как записать исходный код JDBC с помощью SparkR 1.6.0?
С помощью SparkR 1.6.0 я могу читать из источника JDBC следующий код:
jdbc_url <- "jdbc:mysql://localhost:3306/dashboard?user=<username>&password=<password>"
df <- sqlContext %>%
loadDF(source = "jdbc",...
643 просмотров
schedule
24.11.2023
Запуск модели R с помощью SparkR
Спасибо заранее за ваш вклад. Я новичок в ML. Я разработал модель R (используя R studio на моем локальном компьютере) и хочу развернуть ее в кластере hadoop с установленной R Studio. Я хочу использовать SparkR для получения высокопроизводительных...
130 просмотров
schedule
05.02.2022
SparkR: как извлечь строки, содержащие нулевые значения в определенном столбце
Отказ от ответственности: у меня практически нет опыта работы со SparkR
Возьмите следующий кадр данных:
ID Date1 Date2
58844880 04/11/16 NaN
59745846 04/12/16 04/14/16
59743311 04/13/16 NaN
59745848 04/14/16...
750 просмотров
schedule
10.06.2022
SparkR org.apache.spark.SparkException: рабочий процесс R неожиданно завершился
Я пытаюсь выполнить SparkR gapply , по сути, когда я пытаюсь запустить это с моим входным файлом, ограниченным примерно 300 тыс. строк, он работает, однако при масштабировании примерно до 1,2 млн строк я получаю следующее повторяющееся исключение в...
332 просмотров
schedule
17.02.2024
Spark: Как собрать большой объем данных без нехватки памяти
У меня есть следующая проблема:
Я делаю sql-запрос к набору файлов паркета в HDFS, а затем собираю, чтобы получить результат.
Проблема в том, что когда строк много, я получаю сообщение об ошибке нехватки памяти.
Этот запрос требует...
2970 просмотров
schedule
17.12.2023