빠른 하둡 스트리밍 질문이 있습니다. 파이썬 스트리밍을 사용하고 있고 내 맵퍼/리듀서가 필요하지만 기본적으로 설치되지 않은 Python 패키지가 있다면 모든 Hadoop 시스템에도 설치해야합니다. 원격 기계?Hadoop Streaming으로 종속성 관리?
0
A
답변
2
작업 상자에 설치되어 있지 않으면 -file로 보낼 수 있습니다. 패키지 또는 다른 디렉토리 구조가 필요하면 압축을 풀 수있는 zip 파일을 보낼 수 있습니다. 여기에 Haddop 0.17 호출 : 당신은 덤보를 사용하는 경우
1
당신이 계란 파일을 배포 -libegg 사용할 수 있으며 파이썬 자동 구성 : 그러나
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip
은주의해야이 문제를보고 런타임 :
https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files
티 질문은 각 노드에서 nltk를 가져 오는 방법을 보여줍니다. http://stackoverflow.com/questions/6811549/how-can-i-include-a-python-package-with-hadoop-streaming-job/6811775#6811775 – viper