В Pig 0.12 представлены потоковые пользовательские функции Python, но они экспериментальные, поэтому им нужен Hadoop 1.
http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs
Однако единственный предоставленный Amazon AMI, который может использовать pig 0.12, — это AMI 3.1.0, в котором используется Hadoop 2.4, а не Hadoop 1:
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-hadoop-version.html
Таким образом, единственный AMI, который поддерживает правильную версию свиньи, не поддерживает правильную версию hadoop. Есть ли способ заставить потоковые UDF работать с EMR?