После настройки кластера с помощью сценария dask-ec2 я пытаюсь прочитать таблицу sql как фрейм данных dask. Мой запрос выглядит так:
import dask.dataframe as dd
from dask.distributed import Client, progress
c = Client('127.0.0.1:8786')
df = dd.read_sql_table(sql_table_name, uri, index_col=column_1,
columns=[column_2, column_3, column_4], npartitions=393, parse_dates=
[date_column_1, date_column_2])
Где sql_table_name и uri - это строки, специфичные для моей базы данных. Затем я пытаюсь сохранить df с помощью клиента dask.distributed:
df = c.persist(df)
progress(df)
Индикатор выполнения показывает исключение на 0,6 секунды. Я использую c.get_futures_error (df), чтобы попытаться понять, почему, и вернуть что-то вроде:
(<function distributed.worker.execute_task>,
((<function dask.compatibility.apply>,
<function pandas.io.sql.read_sql>,
[<sqlalchemy.sql.selectable.Select at 0x7fd5e3b0a4e0; Select object>,
*the uri I used*],
(dict,
[['parse_dates',
[date_column_1, date_column_2]],
['index_col', column_1]])),),
{},
[])
Я был бы признателен за любые рекомендации относительно того, почему я могу получать эти ошибки будущего, и что я могу сделать, чтобы их уменьшить.