hadoop

3열

1답변

저는 Apache Hadoop을 처음 사용 했으므로 앞으로 더 많은 기능을 살펴볼 수 있기를 기대합니다. 기본적인 단어 수를 계산 한 후에 나는 약간의 분담금을 높이고 싶었습니다. 그래서 저는 Hadoop In Action book을 통해이 문제에 관해 이야기를 나누었습니다. "웹 서버 로그 파일 가져 오기 에 MapReduce 프로그램을 작성하여 각 IP

1열

1답변

hadoop : Map Reduce 작업을위한 여러 출력을 지원합니다.

Hadoop (reference)에서 지원되는 것처럼 보입니다. 그러나 이것을 사용하는 방법은 알지 못합니다. 내가 원하는 : a.) Map - Read a huge XML file and load the relevant data and pass on to reduce b.) Reduce - write two .sql files for different

2열

1답변

Hadoop java mapper -copyFromLocal 힙 크기 오류

Java 매퍼의 일부로 명령을 로컬 노드에서 일부 코드를 실행하고 로컬 출력 파일을 hadoop fs에 복사합니다. 불행하게도 나는 다음과 같은 출력을 받고 있어요 : 오류가 VM의 초기화하는 동안 발생 는 개체 힙 내가 mapred.map.child을 조정하려고했습니다 에 충분한 공간을 예약 할 수 없습니다. -Xmx512M에 java.opts하지만 불행

7열

1답변

지도/축소 기능에서 데이터를 가져 오는 방법은 무엇입니까?

Hadoop : The Definitive Guide에 따르면. 새 API는 "푸시"및 "풀"스타일의 반복을 지원합니다. 두 API 모두에서 키 - 값 레코드 쌍이 매퍼로 푸시되지만 추가적으로 매퍼가 map() 메소드 내에서 레코드를 가져올 수 있습니다. 감속기에 대해서도 마찬가지입니다. "끌어 오기"스타일이 유용 할 수있는 방법의 예는 레코드를 하나씩 처

2열

1답변

오른쪽 장소?

나는 & io.sort.factor이 코어를 site.xml에 io.sort.mb 같은 속성을 어디로 예를 들어이 주어 "Real-World Cluster Configurations"섹션에서 하둡 클러스터 설정에서, 조금 혼란 스러워요. 그러나 기본 구성 파일에서 이러한 속성은 mapred-site.xml!에 나타납니다. 어느 쪽을 따라야 하나? 나는 그것

0열

1답변

Amazon Elastic MapReduce 워크 플로에 "결합"단계를 추가 할 수 있습니까?

나는 결합 단계 mentioned on the Hadoop wiki을 언급하고있다. AWS 설명서에서이 설명서에 대한 참조를 찾을 수 없었으므로이 단계를 활용하고 싶습니다.

1열

1답변

맵 축소 값리스트 순서 문제

Hadoop은 키마다 값을 그룹화하고 동일한 reduce 작업으로 보냅니다. hdfs 파일에 다음 행이 있다고 가정합니다. 1 호선 2 호선 세 번째 줄 .... 린넨지도 작업에 나는 파일 이름과 라인을 인쇄 할 수 있습니다. 줄이면 나는 다른 주문을 받는다. 시험 키 => {line3, line1, line2, ....} 이제 다음 문제가있다. 나는 파일

17열

2답변

String.getBytes()와 Bytes.toBytes (문자열 데이터)의 차이점

Hadoop/HBase 작업을 작성하고 있습니다. Java String을 바이트 배열로 변환해야했습니다. Java의 String.getBytes()과 Hadoop의 Bytes.toBytes() 사이에 차이점이 있습니까?

4열

4답변

다른 돼지 스크립트 내에서 돼지 스크립트를 호출하는 방법

돼지를 사용하여 처리하려는 100 개의 열이있는 hdfs 파일이 있습니다. 별도의 돼지 스크립트에 열 이름이있는 튜플에이 파일을로드하고 다른 돼지 스크립트에서이 스크립트를 다시 사용하려고합니다. 어떻게해야합니까? 이 100 개의 돼지 스크립트는 - 100col.pig입니다. 내가 어떻게 그것을 다른 사람에게서 부르지. 피그?

0열

1답변

하나의 매퍼 작업에 얼마나 많은 메모리를 할당해야 하는지를 hadoop에게 알려주는 방법은 무엇입니까?

나는 Elastic MapReduce 작업을 만들었으며 그 성능을 최적화하려고합니다. 현재 인스턴스 당 매퍼 수를 늘리려고합니다. 내가 mapred.tasktracker.map.tasks.maximum를 통해이 일을하고있다 = X elastic-mapreduce --create --alive --num-instance 3 \ --bootstrap-acti