2012-02-13 1 views
0

아마존 ec2에서 hadoop 클러스터를 실행하여 수만 개의 파일을 다운로드 한 다음 나중에 처리하기를 원하지만 많은 작업을하기 전에 싶습니다. 나보다 더 많은 경험을 가진 사람이 가능하다고 생각한다면? 내가 hadoop 노예에 파일을 다운로드 할 수있는 것에 대해 약간의 의구심이 있습니다.Amazon EC2 Hadoop을 통해 많은 대용량 파일 다운로드

이것이 가능하다고 생각한다면 아마존 ec2에서 실행되는 각 슬레이브마다 다른 IP 주소를 사용할 것으로 기대할 수 있습니까?

저는 파이썬을 사용하여 대부분의 작업 (예 : 다운로드 용 urllib2 모듈)을 사용하고 가능한 한 작은 자바를 사용하고 싶습니다.

+0

물론 가능합니다. 파일을 [HDFS] (http://hadoop.apache.org/common/docs/current/hdfs_user_guide.html)로 직접 다운로드 할 수 있습니다. –

답변

0

ec2에서 hadoop에 데이터를 다운로드 할 수 있습니다. Hadoop은 분산 파일 시스템 (HDFS)을 사용하여 데이터 블록을 슬레이브에 배치하고 구성에 지정된 복제 요소를 준수합니다.

ec2의 슬레이브에는 다른 IP 주소가 있습니다.