각 600 만화 소의 바이너리 형식 (FITS)으로 전체 하늘 맵이 몇 개 있습니다.전체 하늘 맵에서 소스 처리를위한 hadoop 실행
각 하늘지도마다 이미 별, 은하계, 라디오 출처 등 수천 개의 출처에 대한 카탈로그가 있습니다.
각 소스에 대해 나는 싶습니다 :- 는
- 는
- 가 출력을 집계 일반적으로 20메가바이트 이하
- 실행 그들에 대한 통계 관련 단원을 추출 전체 하늘의지도를 엽니 다 카탈로그
를 사용하여 hadoop
을 실행하고 싶습니다. 10을 streaming
인터페이스를 통해 병렬 처리 할 수 있습니다.
나는 매퍼에 입력이 카탈로그의 각 레코드, 는 다음 python
매퍼가 전체 하늘의지도를 열 처리를하고 stdout
출력을 인쇄 할 수 있어야한다고 생각합니다.
- 이 방법이 합리적인 방법입니까?
- 그렇다면 전체 하늘지도가 소스 중 하나를 처리하는 노드에 로컬로 복사되도록
hadoop
을 구성 할 수 있어야합니다. 어떻게하면 될까요? - 또한 입력 데이터를
hadoop
으로 보내는 가장 좋은 방법은 무엇입니까? 각 소스에 대해 전체 하늘지도, 위도 및 경도에 대한 참조가 있습니다.