hdfs: нет такого файла или ошибки каталога при чтении parquetfile в оболочке sparkR

Я хочу прочитать parquetFile в оболочке sparkR из системы hdfs. Итак, я делаю это:

./sparkR --master yarn-client

 sqlContext <- sparkRSQL.init(sc)
 path<-"hdfs://year=2015/month=1/day=9"
 AppDF <- parquetFile(sqlContext, path)

Ошибка: No such file or directory

Но этот файл действительно существует в системе hdfs. И когда я оборачиваю этот код в файл R, например dataframe.R, и запускаю ./spark-submit --master yarn ~/dataframe.R 1000. Это работает хорошо. Поэтому я думаю, что проблема работает на клиенте пряжи через оболочку sparkR. Может ли кто-нибудь помочь решить эту проблему?

Я использую spark-1.4.0-bin-hadoop2.6.


person ysfseu    schedule 20.07.2015    source источник
comment
можете ли вы описать детали файлов spark/conf ..? Что такое содержимое conf/core-site.xml..?   -  person rbyndoor    schedule 20.07.2015
comment
@ruby, спасибо за ответ. Я делаю это снова. Хотя есть это сообщение об ошибке, он действительно успешно прочитал файл. Я не знаю почему. Но это работает   -  person ysfseu    schedule 20.07.2015


Ответы (1)


Я не уверен, что это может помочь. Возможно, вам потребуется добавить полный путь, включая имя хоста и порт defaultFS, например

path<-"hdfs://localhost:9000/year=2015/month=1/day=9"
person Abdulrahman    schedule 21.07.2015
comment
Я пробовал этот метод. Но предупреждение все равно есть. Как я уже упоминал в комментариях, файл действительно читается в - person ysfseu; 22.07.2015