스트리밍으로 hadoop을 실행하려고합니다. 두 파일이 있습니다. 하나는 매퍼에 대한 자바 파일이고 다른 하나는 감속기에 대한 파이썬 스크립트입니다.자바 클래스를 매퍼로 사용하고 파이썬 스크립트를 감속기로 사용
MerkleMapper.java
Class MerkleMapper extends MapREduceBase
및 map()
함수를 정의합니다. 입력 분할의 각 레코드에 대해 들어오는 key(byte_offset)
, value(line)
쌍을 읽고 행의 해시 및 byte_offset
을 출력합니다.
감속 기는 모든 해시를 결합하고 최상위 해시를 생성하는 파이썬 스크립트입니다.
둘 (자바와 파이썬)을 결합 할 수 있습니까? 스트리밍을 사용하여 매퍼로 내 Java 파일을 어떻게 지정합니까?