2014-09-04 10 views
2

돼지 0.12 아마존 EMR 도입 스트리밍 파이썬 UDF를 돼지에서 UDF를 스트리밍 사용하지만, 그들은 실험, 그래서 그들은 하둡 1.파이썬은

http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs

그러나, 단지 아마존에서 제공하는 AMI 필요로하는 방법 즉 0.12이 하둡 2.4을 사용 AMI 3.1.0입니다 돼지를 사용할 수 있습니다, 1 하둡하지 :

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-hadoop-version.html

그래서, 돼지의 오른쪽 버전을 지원하는 유일한 AMI는 하둡의 올바른 버전을 지원하지 않습니다 . EMR에서 작동하는 스트리밍 UDF를 얻을 수있는 방법이 있습니까?

답변

2

부트 스트랩 작업을 사용하여 EMR에 자신 만의 돼지 버전을 설치할 수 있습니다. PMI가 이미 AMI (2.4.5?) 버전에 설치되어 있지 않은 클러스터를 만든 다음 원하는 버전의 돼지를 설치해야합니다. (0.12)

+0

EMR AMI 3.0.4를 Apache Pig 0.11과 함께 사용합니다. 1.1 preinstalled 그리고 나는 단지 tarball에서 Apache Pig 0.13.0을 추출하고 PATH가 0.11.0이 아니라 0.13.0을 가리 키도록 업데이트한다. 이전 클라우드와 동일한 클라우드가 구형 AMI에서도 수행된다고 가정합니다. –

+0

이것도 작동합니다. 그러나 Pig는 AMI 자체의 일부가 아니며 클러스터의 인스턴스 생성 중에 설치됩니다. 따라서 클러스터 정의가 사전 설치되지 않도록 변경할 수 있습니다. – user1452132