У меня есть ежедневный процесс, который основан на плоских файлах, доставляемых в каталог «Drop Box» в файловой системе, это запускает загрузку этих данных с разделителями-запятыми (из excel внешней компании и т. д.) в базу данных, частичное приложение Perl/Bash , эта база данных используется несколькими приложениями, а также редактируется напрямую с помощью некоторых инструментов с графическим интерфейсом. Затем некоторые данные реплицируются с помощью дополнительного приложения Perl в базу данных, которую я в основном использую.
Излишне говорить, что все это сложно и подвержено ошибкам, входящие данные иногда повреждены, а иногда их ломает редактирование. Мои пользователи часто жалуются на отсутствие или неверные данные. Сравнение плоских файлов и баз данных для анализа того, где процесс прерывается, требует много времени, и какие данные с каждым днем становятся все более несостоятельными и трудными для анализа.
Я планирую исправить или переписать части или весь этот процесс передачи данных.
Я просматриваю рекомендуемое чтение, прежде чем приступить к этому, веб-сайты и статьи о том, как писать надежные, отказоустойчивые и автоматически восстанавливаемые процессы ETL, или другие советы будут оценены.