Вопросы по теме 'apache-pig'

Разница между свиньей и ульем? Почему есть оба?
Мой опыт - 4 недели в мире Hadoop. Немного поэкспериментировал с Hive, Pig и Hadoop, используя виртуальную машину Hadoop от Cloudera. Прочитал документ Google по Map-Reduce и GFS ( ссылка в формате PDF ). Я это понимаю- Свиной язык...
207795 просмотров
schedule 03.02.2024

Есть ли каноническая проблема, которую нельзя решить с помощью map/reduce?
Я пытаюсь понять границы hadoop и map/reduce, и это помогло бы узнать нетривиальную проблему или класс проблем, с которыми, как мы знаем, map/reduce не может помочь. Конечно, было бы интересно, если бы изменение одного фактора проблемы позволило...
1515 просмотров
schedule 22.01.2024

Pig Latin: загрузка нескольких файлов из диапазона дат (часть структуры каталогов)
У меня следующий сценарий- Используемая версия свиньи 0,70 Пример структуры каталогов HDFS: /user/training/test/20100810/<data files> /user/training/test/20100811/<data files> /user/training/test/20100812/<data files>...
47518 просмотров
schedule 09.01.2023

Как я могу использовать тип данных карты в Apache Pig?
Я хотел бы использовать Apache Pig для создания большого сопоставления ключей -> значений, поиска вещей на карте и перебора ключей. Однако, похоже, даже не существует синтаксиса для выполнения этих действий; Я проверил руководство, вики, пример...
28053 просмотров
schedule 19.04.2023

Эквивалент Linux 'diff' в Apache Pig
Я хочу иметь возможность выполнять стандартное сравнение двух больших файлов. У меня есть кое-что, что будет работать, но это не так быстро, как diff в командной строке. A = load 'A' as (line); B = load 'B' as (line); JOINED = join A by line full...
2805 просмотров
schedule 21.08.2023

Исключение для вставки свиньи Кассандры
Я использую pig CassandraStroage() для вставки большого набора данных в cassandra, после 4 часов работы произошел сбой со следующим исключением: java.lang.NullPointerException at...
436 просмотров
schedule 02.01.2024

Как вызвать perl-скрипт из PIG..?
Кто-нибудь знает, как вызвать скрипт perl из скрипта свиньи.. также я хочу знать, как вызвать свинью из perl.. Пожалуйста помоги мне с этим. Спасибо, Ранджит
2048 просмотров
schedule 13.07.2023

Ошибка PIG 1066 после повторения объединенного набора.
Попытка присоединиться к одному набору, который имеет количество дней в месяце, с набором данных по ключу месяца года. После того, как я присоединяюсь и пытаюсь выполнить FOREACH по набору, я получаю ОШИБКУ: 1066 ... Ошибка бэкэнда: Scalar имеет...
3419 просмотров
schedule 15.02.2023

как вызвать скрипт свиньи внутри другого скрипта свиньи
У меня есть файл в hdfs со 100 столбцами, который я хочу обработать с помощью pig. Я хочу загрузить этот файл в кортеж с именами столбцов в отдельном скрипте свиньи и повторно использовать этот скрипт из других скриптов свиньи. Как мне это сделать?...
6325 просмотров
schedule 29.05.2022

Как перегруппировать отношение свиньи?
Предположим, у меня есть входной файл input.dat , который выглядит так: apples 10 oranges 30 apples 6 pears 5 Теперь, когда я загружаю, группирую и проецирую данные: sources = LOAD 'input.dat' as { a:chararray, b:int }; grouped = GROUP...
911 просмотров
schedule 19.10.2023

Как я могу правильно выполнить это внутреннее соединение в Apache PIG?
У меня есть два файла, один называется a-records 123^record1 222^record2 333^record3 и другой файл с именем b-records 123^jim 123^jim 222^mike 333^joe вы можете видеть в файле A, что у меня есть токен 123 один раз. В файле B он...
5300 просмотров
schedule 24.03.2024

Можно ли создать кластер Hadoop, включающий Hbase, Hive и Pig, на EC2 с помощью Whirr
Можно ли создать кластер Hadoop с Hbase, Hive и Pig на Amazon EC2 с помощью Whirr??
294 просмотров
schedule 11.07.2023

В Java (Pig) Regex, как я могу сделать следующее?
У меня есть данные, поступающие в текстовый файл, разделенный трубами. К сожалению, 2 поля могут иметь несколько значений. Чтобы разделить эти множественные числа, отправитель снова использовал конвейер, но заключил его в кавычки. Мое регулярное...
237 просмотров
schedule 05.07.2023

Интеграция Cassandra и Pig. Является ли Hadoop необязательным?
Я пытаюсь настроить пробный кластер cassandra + pig. Вики cassandra звучит так, будто вам нужен хауп для интеграции со свиньей. но ридми в cassandra-src/contrib/pig звучит так, будто вы можете запустить pig на cassandra без хаупа. Если Hadoop...
784 просмотров
schedule 30.04.2022

Разбор текста с помощью PIG
Я новичок в PIG, мало что знаю об этом. Как я могу разобрать текст в PIG? для чтения значений поля в свинье есть концепция позиционного параметра, например, $0 соответствует первому полю. Аналогично, есть ли какая-либо функция, такая как позиционный...
6366 просмотров
schedule 24.04.2022

Заказ свиньи по запросу
grunt> dump jn; (k1,k4,10) (k1,k5,15) (k2,k4,9) (k3,k4,16) grunt> jn = group jn by $1; grunt> dump jn; (k4,{(k1,k4,10),(k2,k4,9),(k3,k4,16)}) (k5,{(k1,k5,15)}) Теперь отсюда я хочу получить следующий результат:...
15349 просмотров
schedule 13.03.2024

Чтение файлов в PIG, в которые входит delemeter в данных
Я хочу прочитать файл CSV с помощью PIG, что мне делать? Я использовал load n pigstorage(','), но он не может правильно прочитать файл CSV, потому что там, где он встречает запятую (,) в данных, он разделяет его. Как мне теперь указать разделитель,...
4264 просмотров
schedule 10.03.2023

Как хранить сгруппированные записи в нескольких файлах с помощью Pig?
После загрузки и группировки записей, как я могу сохранить эти сгруппированные записи в несколько файлов, по одному на группу (=userid)? records = LOAD 'input' AS (userid:int, ...); grouped_records = GROUP records BY userid; Я использую...
5673 просмотров
schedule 26.09.2022

Как умножить несколько полей кортежа на заданное поле кортежа
Для каждой строки данных я хотел бы умножить поля от 1 до N на поле 0. Данные могут иметь сотни полей в строке (или переменное количество полей в этом отношении), поэтому запись каждой пары невозможна. Есть ли способ указать диапазон полей, как в...
403 просмотров
schedule 01.05.2024

стек для загрузки файлов журнала в cassandra
Я хотел бы периодически (ежечасно) загружать журналы приложений в Cassandra для анализа с помощью pig. Как это обычно делается? Есть ли проекты, посвященные этому? Я вижу, что mumakil обычно используется для массовой загрузки данных. Я мог...
837 просмотров
schedule 21.09.2023