Я пытаюсь создать кадр данных dask из файла HDFS (csv). CSV-файл, хранящийся в HDFS, содержит множество файлов деталей.
При вызове API read_csv:
dd.read_csv("hdfs:<some path>/data.csv")
Возникает следующая ошибка:
OSError: Could not open file: <some path>/data.csv, mode: rb Path is not a file: <some path>/data.csv
На самом деле /data.csv — это каталог, содержащий множество файлов деталей. Я не уверен, есть ли какой-то другой API для чтения таких hdfs csv.
"hdfs:/some/path/data.csv/*.csv"
(обратите внимание на «/» после двоеточия и шаблона глобуса)? - person mdurant   schedule 29.09.2017