Dask чтение CSV, установка раздела как длина CSV

Я пытаюсь написать код, который будет читать из набора CSV с именем my_file_*.csv в фреймворк Dask.

Затем я хочу установить разделы в зависимости от длины CSV. Я пытаюсь сопоставить функцию для каждого раздела, и для этого каждый раздел должен быть всем CSV.

Я попытался сбросить индекс, а затем установить разделы на основе длины каждого CSV, но похоже, что индекс фрейма данных Dask не уникален.

Есть ли лучший способ разбиения на разделы в зависимости от длины каждого CSV-файла?


person abcdefg    schedule 31.03.2017    source источник
comment
Некоторые детали довольно непонятны. сопоставить функцию на каждом разделе и на основе длины csv? Длина csv означает, сколько строк или столбцов или что-то еще?   -  person Steven    schedule 31.03.2017


Ответы (1)


Значит, на одном разделе должен быть ровно один файл? Вы холодно делаете:

import dask.dataframe as dd
ddf = dd.read_csv(my_file_*.csv, blocksize = None)

Установка для параметра «Размер блока» значения «Нет» гарантирует, что файлы не будут разбиты на несколько разделов. Следовательно, ddf будет фреймом данных dask, содержащим по одному файлу на раздел.

Возможно, вы захотите ознакомиться с документацией:

person Someone    schedule 01.04.2017
comment
Спасибо! это очень помогло. - person abcdefg; 02.04.2017