У меня есть работа по уменьшению карты, написанная на Pig, которая делает следующее.
Учитывая набор файлов журнала Apache, представляющих посещения определенного ресурса на веб-сайте.
- очистить логи от роботов и от ненужных строк логов
- создавать кортежи (ip, resource_id), найденные в журналах
Например, этот журнал:1.1.1.1 - [14/Jun/2014:06:26:27 +0000] "GET /path/to/resource/<resource_id>" "Agent"
будет переведено в (если это не робот):(1.1.1.1, <resource_id>)
Это делается с помощью простой пользовательской функции, которая анализирует журнал с помощью регулярного выражения и библиотеки для обнаружения роботов.
Начиная с этого шага скрипт продолжает выполнять пару дополнительных операций сокращения карты.
Проблема заключается в следующем:
- Я могу выполнить работу свиньи на месте.
- Я загрузил скрипт в Amazon Elastic Map Reduce с 5 ГБ журналов для обработки.
- Я запустил скрипт на 1 час с 10
m1.large
экземплярами. - Работа не была закончена, и я прекратил ее.
Созданные журналы Hadoop не показывают большого прогресса и, похоже, застряли на начальной стадии подготовки, описанной ранее.
2014-07-07 06:31:17,609 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - detailed locations: M: pre1[4,7],pre2[-1,-1],pre3[7,7],pre4[8,7],r2[13,5] C: R: r5[-1,-1]
2014-07-07 06:31:17,661 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 0% complete
Как бы вы предложили отладить проблему, начиная с этого момента?
Считаете ли вы, что с учетом размера данных количество машин является разумным?
Я действительно ожидал, что закончу работу за такое количество времени.
Спасибо
task-attempts
. Внутри у меня есть все подробности различных выполняемых задач (cl.ly/image/122g2G3x221X) . Каждый из них выглядит следующим образом ===> Открытие 's3n://path/to/log/access.log.22' для чтения [...] Псевдонимы, обрабатываемые на этапе задания (Имя псевдонима [строка, смещение]): М: пре1[4,7],пре2[-1,-1],пре3[7,7],пре4[8,7],r2[13,5] C: R: r5[-1,-1] 07.07.2014 06:33:09,202 ИНФОРМАЦИЯ [Thread-5] amazon.emr.metrics.MetricsUtil: состояние контроллера экземпляра завершено 07.07.2014 06:33:09,809 INFO [Thread-5] amazon.emr.metrics. MetricsSaver: показатели EMR отключены - person mottalrd   schedule 07.07.2014