Для проекта, который мы унаследовали, у нас есть большой набор устаревших данных, 600 ГБ, которые мы хотели бы заархивировать, но при необходимости они все еще доступны.
В соответствии с этим руководством мы рассматриваем возможность использования конвейера данных AWS для перемещения данных из базы данных в S3.
https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html
Однако мы также хотели бы иметь возможность извлекать «строку» этих данных, если мы обнаружим, что приложение фактически использует определенную строку.
Судя по всему, в этом руководстве все данные из таблицы помещаются в один массивный CSV-файл.
Можно ли разделить данные на отдельные файлы, по 100 строк данных в каждом файле и дать каждому файлу предсказуемое имя файла, например:
foo_data_10200_to_10299.csv
Таким образом, если мы поймем, что нам нужно получить строку 10239, мы сможем узнать, какой файл нужно получить, и загрузить только его, а не все 600 ГБ данных.