hadoop

6열

4답변

나는 hadoop으로 놀기 시작했다. (그러나 클러스터에 액세스 할 수는 없으므로 독립 실행 형으로 놀고있다.) 내 질문은 일단 클러스터 설정에서 어떻게 작업을 배포하고 코드베이스를 새 노드로 전송할 수 있습니까? 이상적으로는 대규모 일괄 처리 작업을 실행하고 클러스터에 새 노드를 추가해야하지만 같은 코드를 복사해야 할 지 모르겠다. 배치 작업이 실행되는

2열

1답변

하나의 hadoop MR 작업을위한 복수의 HDFS 소스

두 개의 HDFS 클러스터가 C1과 C2로 설정되었습니다. 분명히 둘 다 많은 양의 데이터를 저장하지만이 특정 작업의 경우 그 중 하나는 필요한 데이터의 대부분을 갖습니다 (C1이 90 %라고 가정 해 봅시다) 나머지 데이터는 C2에 있습니다. 나는 C1에서 실행될 수 있지만 여전히 C2상의 다른 10 %의 데이터에 액세스 할 수있는 M/R 작업을 작성하려

1열

1답변

Hadoop 다중 VM 스폰하기

bin/start-all.sh 스크립트를 사용하여 hadoop을 시작하면 이름 노드, 데이터 노드, 작업 추적기 및 작업 추적기에 대해 다른 JVM을 시작하는 것으로 보입니다. 더 이상, 내가 작업을 시작할 때, 각각의 작업에 대해 다른 JVM을 만드는 것으로 보입니다. hadoop이 그렇게하는 구체적인 이유가 있습니까? 필자는 다중 노드 클러스터 환경에서

2열

1답변

Hadoop : 키 - 값 쌍의 값으로 두 배 배열을 가질 수 있습니까?

일부 통계를 찾기 위해 일부 벡터를 집계해야하는데 문제가 있습니다. 예를 들어 나는 복식의 벡터를 가지고 있으며이를 합계해야합니다. 내 벡터 모양은 다음과 같습니다. 1,0,3,4,5 2,3,4,5,6 3,4,5,5,6 내 키 - 값 쌍은 (String, String)입니다. 그러나 이러한 벡터를 추가해야 할 때마다 먼저 두 개의

1열

2답변

감속기에서 다중 출력

나는 단순지도 축소 프로그램에서 일하고 있습니다. 키의 각기 다른 단어에 대해 감속기 다음에 다른 파일을 만들고 싶습니다. 예를 들어, MapReduce의 실행 후 I 지금 Priority1 × 2 Priority1 Y 2 Priority1 z의 2 priority2 × 2 priority2 y를 2 같은 것을 가지고 나는 우선 순위에 따라 이러한 모든 값

1열

2답변

Apache Pig는 파일 대신 STDIN에서 데이터를로드 할 수 있습니까?

아파치 피그를 사용하여 두 파일의 데이터를 변환/조인하고 싶지만 단계별로 구현하고 싶습니다. 즉 실제 데이터에서 테스트하지만 작은 크기 (예 : 10 줄)로 테스트하고 싶습니다. STDIN에서 읽고 STDOUT으로 출력하는 돼지를 사용할 수 있습니까?

0열

1답변

LZMA2 용 Hadoop 압축/압축 해제 코덱을 작성하는 방법은 무엇입니까?

.xz 파일을 읽을 수있는 LZMA2 용 Hadoop 압축 해제 코덱을 작성하고 싶습니다. 이것은 나의 임무이며 Compression or Decompression 코덱에 완전히 익숙하다. 이 문제에 대한 지침을 찾고 있습니다. 어디에서 시작해야합니까? 그리고이 작업에 대한 도움을받을 곳은 어디입니까?

3열

1답변

MapReduce 프레임 워크는 어떻게 정렬 단계를 구현합니까?

MapReduce 정렬 단계의 구현에 관심이 있습니다. 그것은 매우 효율적으로 보인다. 누군가는 그것에 관하여 약간 참고를 제공 할 수 있 었는가? 감사!

0열

2답변

Hadoop의 Map/Reduce 작업에서 CPU 시간을 찾는 방법

Hadoop 스케줄러를 작성 중입니다. 내 스케줄링에서는 각 Map/Reduce 작업에서 소요 된 CPU 시간을 찾아야합니다. TaskInProgress 클래스는 프로세스가 시작되고 완료되면 벽 시계 시간이있는 execStartTime 및 execFinishTime 값을 유지하지만 정확하게 작업에 의해 소비되는 CPU 시간을 표시하지 않습니다 나는 것을 알

2열

1답변

내 시스템에서 Amazon EC2와 유사한 환경을 유지하는 방법은 무엇입니까?

다른 사람이 코딩 (링크) 한 hadoop 프로젝트가 있습니다. 나는 그 근원을 가지고있다. 나는 이것을 나의 클러스터 (기본적으로 3 개의 우분투 시스템)에 구현하려고한다. 그러나 언급 프로젝트는 EC2 플랫폼 (Cloudera 배포판)에서 작동합니다. 그렇다면 시스템에이 프로젝트를 실행하기위한 소프트웨어를 설치하려면 무엇을 모두 설치해야합니까? Orac