hadoop

    6

    4답변

    나는 hadoop으로 놀기 시작했다. (그러나 클러스터에 액세스 할 수는 없으므로 독립 실행 형으로 놀고있다.) 내 질문은 일단 클러스터 설정에서 어떻게 작업을 배포하고 코드베이스를 새 노드로 전송할 수 있습니까? 이상적으로는 대규모 일괄 처리 작업을 실행하고 클러스터에 새 노드를 추가해야하지만 같은 코드를 복사해야 할 지 모르겠다. 배치 작업이 실행되는

    2

    1답변

    두 개의 HDFS 클러스터가 C1과 C2로 설정되었습니다. 분명히 둘 다 많은 양의 데이터를 저장하지만이 특정 작업의 경우 그 중 하나는 필요한 데이터의 대부분을 갖습니다 (C1이 90 %라고 가정 해 봅시다) 나머지 데이터는 C2에 있습니다. 나는 C1에서 실행될 수 있지만 여전히 C2상의 다른 10 %의 데이터에 액세스 할 수있는 M/R 작업을 작성하려

    1

    1답변

    bin/start-all.sh 스크립트를 사용하여 hadoop을 시작하면 이름 노드, 데이터 노드, 작업 추적기 및 작업 추적기에 대해 다른 JVM을 시작하는 것으로 보입니다. 더 이상, 내가 작업을 시작할 때, 각각의 작업에 대해 다른 JVM을 만드는 것으로 보입니다. hadoop이 그렇게하는 구체적인 이유가 있습니까? 필자는 다중 노드 클러스터 환경에서

    2

    1답변

    일부 통계를 찾기 위해 일부 벡터를 집계해야하는데 문제가 있습니다. 예를 들어 나는 복식의 벡터를 가지고 있으며이를 합계해야합니다. 내 벡터 모양은 다음과 같습니다. 1,0,3,4,5 2,3,4,5,6 3,4,5,5,6 내 키 - 값 쌍은 (String, String)입니다. 그러나 이러한 벡터를 추가해야 할 때마다 먼저 두 개의

    1

    2답변

    나는 단순지도 축소 프로그램에서 일하고 있습니다. 키의 각기 다른 단어에 대해 감속기 다음에 다른 파일을 만들고 싶습니다. 예를 들어, MapReduce의 실행 후 I 지금 Priority1 × 2 Priority1 Y 2 Priority1 z의 2 priority2 × 2 priority2 y를 2 같은 것을 가지고 나는 우선 순위에 따라 이러한 모든 값

    1

    2답변

    아파치 피그를 사용하여 두 파일의 데이터를 변환/조인하고 싶지만 단계별로 구현하고 싶습니다. 즉 실제 데이터에서 테스트하지만 작은 크기 (예 : 10 줄)로 테스트하고 싶습니다. STDIN에서 읽고 STDOUT으로 출력하는 돼지를 사용할 수 있습니까?

    0

    1답변

    .xz 파일을 읽을 수있는 LZMA2 용 Hadoop 압축 해제 코덱을 작성하고 싶습니다. 이것은 나의 임무이며 Compression or Decompression 코덱에 완전히 익숙하다. 이 문제에 대한 지침을 찾고 있습니다. 어디에서 시작해야합니까? 그리고이 작업에 대한 도움을받을 곳은 어디입니까?

    3

    1답변

    MapReduce 정렬 단계의 구현에 관심이 있습니다. 그것은 매우 효율적으로 보인다. 누군가는 그것에 관하여 약간 참고를 제공 할 수 있 었는가? 감사!

    0

    2답변

    Hadoop 스케줄러를 작성 중입니다. 내 스케줄링에서는 각 Map/Reduce 작업에서 소요 된 CPU 시간을 찾아야합니다. TaskInProgress 클래스는 프로세스가 시작되고 완료되면 벽 시계 시간이있는 execStartTime 및 execFinishTime 값을 유지하지만 정확하게 작업에 의해 소비되는 CPU 시간을 표시하지 않습니다 나는 것을 알

    2

    1답변

    다른 사람이 코딩 (링크) 한 hadoop 프로젝트가 있습니다. 나는 그 근원을 가지고있다. 나는 이것을 나의 클러스터 (기본적으로 3 개의 우분투 시스템)에 구현하려고한다. 그러나 언급 프로젝트는 EC2 플랫폼 (Cloudera 배포판)에서 작동합니다. 그렇다면 시스템에이 프로젝트를 실행하기위한 소프트웨어를 설치하려면 무엇을 모두 설치해야합니까? Orac