Как написать выражение предиката в AWS Glue

Я новичок в AWS Glue и PySpark. Ниже приведен пример кода

    glue_context.create_dynamic_frame.from_catalog(
    database = "my_S3_data_set",
    table_name = "catalog_data_table",
    push_down_predicate = my_partition_predicate)

в руководстве Управление разделами для вывода ETL в AWS Glue.

Предположим, что запрос SQL для фильтрации фрейма данных выглядит следующим образом:

    select * from catalog_data_table
    where timestamp >= '2018-1-1'

Как сделать предварительную фильтрацию на AWS Glue?


person seven    schedule 14.09.2018    source источник


Ответы (1)


Вообще говоря, ваши данные должны быть разделены, и тогда вы сможете использовать эти столбцы разделения в выражении push_down_predicate.

Взгляните на это отвечать.

person Yuriy Bondaruk    schedule 16.11.2018