2010-05-19 3 views
0

빠른 하둡 스트리밍 질문이 있습니다. 파이썬 스트리밍을 사용하고 있고 내 맵퍼/리듀서가 필요하지만 기본적으로 설치되지 않은 Python 패키지가 있다면 모든 Hadoop 시스템에도 설치해야합니다. 원격 기계?Hadoop Streaming으로 종속성 관리?

+0

티 질문은 각 노드에서 nltk를 가져 오는 방법을 보여줍니다. http://stackoverflow.com/questions/6811549/how-can-i-include-a-python-package-with-hadoop-streaming-job/6811775#6811775 – viper

답변

2

작업 상자에 설치되어 있지 않으면 -file로 보낼 수 있습니다. 패키지 또는 다른 디렉토리 구조가 필요하면 압축을 풀 수있는 zip 파일을 보낼 수 있습니다. 여기에 Haddop 0.17 호출 : 당신은 덤보를 사용하는 경우

https://issues.apache.org/jira/browse/MAPREDUCE-596

1

당신이 계란 파일을 배포 -libegg 사용할 수 있으며 파이썬 자동 구성 : 그러나

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip 

은주의해야이 문제를보고 런타임 :

https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files