Почему при запуске HBase на amazon EMR папка /tmp огромна по сравнению с фактическими данными?

У нас есть кластер hadoop+hbase на amazon EMR с конфигурацией по умолчанию, так что mapred.child.tmp и hbase.tmp.dir указывают на /tmp. Наш кластер работает некоторое время, и теперь /tmp составляет 500 Гб, по сравнению с 70 Гб для реальных данных /hbase.

Такая разница кажется слишком большой, мы должны периодически удалять некоторые из /tmp данных?


person Julian Go    schedule 17.09.2012    source источник


Ответы (1)


После некоторого расследования я обнаружил, что большая часть наших /tmp данных была создана неудачными задачами mapreduce во время автоматического резервного копирования Amazon Hbase на S3. Наши успешные задачи mapreduce не оставляют много данных в /tmp.

Мы решили отключить автоматическое резервное копирование Amazon и реализовать собственный сценарий резервного копирования с помощью инструмента Hbase для импорта/экспорта таблиц.

person Julian Go    schedule 01.10.2012