Как я могу увидеть метаданные, происхождение данных, хранящихся в красном смещении AWS?

Я использую такие решения, как cloudera navigator, атлас и Где

чтобы получить метаданные и родословную Hadoop, HDFS, HIVE, SQOOP, MAPREDUCE.

Теперь у нас есть хранилище данных и в AWS redshift. Есть ли способ извлечь метаданные или родословную или обе информации из красного смещения.

Пока ничего не нашел по этому поводу.

Есть ли способ интегрировать то же самое в решение для сканирования?

Я нашел только один сообщение, которое дает некоторые информация о том, как получить некоторую информацию из redshift, предполагая, что она будет похожа на postgresql. Я уверен, что кто-нибудь написал бы какое-нибудь открытое решение этой проблемы. Или нужно просто написать один простой скрипт для извлечения этой информации? Я ищу решение уровня предприятия. Я надеюсь, что кто-то укажет мне в правильном направлении.


comment
Amazon Redshift — это просто база данных, она не содержит никакой информации о происхождении данных. Вы можете извлечь список запросов, которые были выполнены, а затем экстраполировать на его основе, но это не будет ни очевидным, ни окончательным.   -  person John Rotenstein    schedule 28.05.2017
comment
Вы можете извлечь метаданные из представлений information_schema. Хотя никакой родословной, афаик.   -  person Adam Owczarczyk    schedule 29.05.2017


Ответы (2)


Каталог данных AWS Glue — это полностью управляемый сервис управления метаданными. В нем есть сканер AWS Glue, который автоматически просматривает ваш источник (для вас его красное смещение) и создает централизованный репозиторий метаданных, к которому могут получить доступ другие сервисы AWS. .

Ссылаться:

https://docs.aws.amazon.com/glue/latest/dg/components-overview.html

https://aws.amazon.com/glue/

person satish silveri    schedule 03.07.2018

Вы можете получить доступ к метаданным, запросив системные таблицы в Redshift:

https://docs.aws.amazon.com/redshift/latest/dg/cm_chap_system-tables.html

Системные таблицы находятся на ведущем узле в каждом кластере (см. это руководство по архитектуре Redshift, которое я написал)

Redshift постоянно удаляет содержимое системных таблиц, поэтому вам нужно хранить эти данные в своем кластере или другом отдельном кластере, чтобы получить историю. С данными в системных таблицах у вас есть базовая информация о ваших запросах и таблицах, к которым они относятся.

Вы можете поместить панель инструментов, такую ​​​​как Kibana или Periscope Data, поверх этих данных, чтобы визуализировать их. Компания Plaid написала о том, как они построили собственное решение для мониторинга, в котором есть некоторая информация о происхождении данных:

https://blog.plaid.com/managing-your-amazon-redshift-performance-how-plaid-uses-periscope-data/

Но чтобы получить истинное происхождение данных, вам нужно понять, как запросы связаны с вашими рабочими процессами, то есть для группы обеспечения доступности баз данных Airflow. Чтобы получить эту информацию, вам нужно «пометить» свои запросы, чтобы вы могли отслеживать их в контексте преобразований/рабочих процессов, а не рассматривать отдельный запрос.

Это то, что мы встроили в наш продукт — имейте в виду, что это коммерческое решение:

https://www.intermix.io/blog/announcing-query-insights/< /а>

В отличие от необработанных журналов из системных таблиц, мы предоставляем контекст того, какие приложения/рабочие процессы вызывают запросы, какие пользователи их запускают и к каким таблицам они прикасаются.

  • Ларс
person Lars Kamp    schedule 27.03.2019