Чтение Athena из CSV-файлов AWS DMS

Я настроил свою DMS для чтения из базы данных MySQL и переноса ее данных на S3 с репликацией. Кажется, все работает нормально, он создает большие CSV-файлы для всех данных и начинает создавать меньшие CSV-файлы с дельтами.

Проблема в том, что когда я читаю эти CSV-файлы с помощью AWS Glue Crawlers, они, кажется, не получают этих дельт или, что еще хуже, они, кажется, получают только дельты, игнорируя большие файлы CSV.

Я знаю, что здесь есть похожий пост: Athena не может разрешить файлы CSV из AWS DMS

Но на него нет ответа, и я не могу комментировать его, поэтому я открываю этот.

Кто-нибудь нашел решение этого?

С наилучшими пожеланиями.


person Renato Bibiano    schedule 12.09.2018    source источник
comment
вы помещаете большой файл и дельта-файл в одну папку? Определение таблицы находится на уровне папки?   -  person Tanveer Uddin    schedule 27.09.2018
comment
Да, они в одной папке. Что вы имеете в виду под определением таблицы на уровне папки?   -  person Renato Bibiano    schedule 01.10.2018
comment
Под уровнем папки я имел в виду создание папки для каждой таблицы и размещение полного файла и файла CDC для одной и той же таблицы в соответствующей папке для таблицы. Определение таблицы клея не должно быть на отдельной таблице. Я написал блог по этому вопросу. Пожалуйста, прочитайте, если это поможет. linkedin.com/pulse/< /а>   -  person Tanveer Uddin    schedule 02.10.2018
comment
так что да, я считаю, что определение нашей таблицы находится на уровне папки. Я прочитаю ваш блог, как только смогу   -  person Renato Bibiano    schedule 02.10.2018
comment
Каталог клея находится на уровне папок. Следовательно, вам необходимо убедиться, что формат файла одинаков для всех файлов в папке. После этого запустите на нем искатель Glue, чтобы создать таблицу. Затем в Athena запустите msck repair table ‹tablename›. Это должно позволить вам прочитать все данные в папке корзины s3 (технически каждый файл является объектом в s3, но для простоты ссылка на папку здесь)   -  person Ash    schedule 07.03.2019