Я читал другие похожие темы и искал в Google, чтобы найти лучший способ, но не нашел решения, приемлемого с точки зрения производительности.
У меня очень большой фрейм данных dask со 100 разделами и 57 столбцами. Я хочу переместить его в таблицу bigquery. Пока я пробовал 2 способа:
dd.compute() # to do compute and then use pandas gbq
pd.io.gbq.to_gbq(df, BQ_DATASET_NAME_TEMP + "." + BQ_EVENT_TEMP_TB, BQ_PROJECT_NAME, if_exists='append')
Это занимает так много времени (более 2 часов)
Я также пробовал использовать:
dd.to_json('gs://dask_poc/2018-04-18/output/data-*.json')
чтобы переместить фрейм данных dask в GCS, а затем переместить файлы в bigquery. Перемещение только фрейма данных в GCS занимает 3 часа. Просто подумал, что должен быть способ лучше. Есть мысли?
to_gbq
, я думаю, что он не обрабатывает задание параллельно, так что это, вероятно, уже лучшая производительность, которую вы могли бы получить. - person Willian Fuks   schedule 14.03.2019