Проблема с сохранением фрейма данных dask из read_sql_table и понимания вывода dask, распределенного Client.get_future_errors

После настройки кластера с помощью сценария dask-ec2 я пытаюсь прочитать таблицу sql как фрейм данных dask. Мой запрос выглядит так:

import dask.dataframe as dd
from dask.distributed import Client, progress
c = Client('127.0.0.1:8786')

df = dd.read_sql_table(sql_table_name, uri, index_col=column_1,  
columns=[column_2, column_3, column_4], npartitions=393, parse_dates=
[date_column_1, date_column_2])

Где sql_table_name и uri - это строки, специфичные для моей базы данных. Затем я пытаюсь сохранить df с помощью клиента dask.distributed:

df = c.persist(df)
progress(df)

Индикатор выполнения показывает исключение на 0,6 секунды. Я использую c.get_futures_error (df), чтобы попытаться понять, почему, и вернуть что-то вроде:

(<function distributed.worker.execute_task>,
  ((<function dask.compatibility.apply>,
   <function pandas.io.sql.read_sql>,
   [<sqlalchemy.sql.selectable.Select at 0x7fd5e3b0a4e0; Select object>,
*the uri I used*],
   (dict,
[['parse_dates',
  [date_column_1, date_column_2]],
 ['index_col', column_1]])),),
{},
[])

Я был бы признателен за любые рекомендации относительно того, почему я могу получать эти ошибки будущего, и что я могу сделать, чтобы их уменьшить.


person Dimitri    schedule 08.01.2018    source источник


Ответы (1)