hadoop-streaming

    2

    1답변

    작업에 대해 런타임에 두 개 이상의 입력 인수를 읽도록 hadoop 스트리밍을 구성 할 수 있습니까? my_script file1 file2 가 어떻게 하둡 스트리밍이를 지정할 수 있습니다 : 예를 들어 ,의 난으로 실행되는 스크립트가 있다고 가정 해 보자? 내가 아는 한, 다음 실행 구문을 가진 작업 만 지정할 수 있습니다 : my_script "fixe

    0

    1답변

    우선, 내가 무엇을하려고하는지 설명하겠습니다. :) 이 hadoop 일에 두통이 생기고 정말로 meeeee를 구할 도움이 필요합니다. 큰 텍스트 파일의 각 레코드를 사용하여 Lucene의 인덱스에서 검색을 수행 한 다음 결과를 원하는대로 마사지하고 결과를 출력합니다 . 그래서, 큰 입력 텍스트 파일을 넣고 hadoop의 파일 시스템에 lucene 색인을 미

    0

    2답변

    내가 hadoop-streaming 를 통해 기본 Map Reduce 프로그램을 실행 오전 Map 내가 그것을 실행 import sys index = int(sys.argv[1]) max = 0 for line in sys.stdin: fields = line.strip().split(",") if fields[index].isdi

    0

    1답변

    스토리지 시스템으로 A hadoop에 대해 2 가지 질문이 있습니다. 나는 3 데이터 노드의 하둡 클러스터가 나는 큰 파일의 분할을 지시 할 데이터 노드의 내 선택에 (64메가바이트은 그 분할 크기를 가정) 크기 128메가바이트의 말한다. 그런 경우 어떤 분할이 어떤 DataNode로가는지를 제어하는 ​​방법입니다. 나는 우리가 3 개의 데이터 노드 (즉,

    6

    2답변

    일반적으로 잘 작동하는 EMR 스트리밍 작업 (Python)이 있습니다 (예 : 10 개 머신에서 200 개 입력 처리). 그러나, 나는 다음과 같은 오류 얻을 재정의 2.5 시간 후 (12 기계가 입력 당 약 20 초에서 6000 개 입력의 총 처리) 대용량 데이터 세트에 대해 그것을 실행하면 내가 읽고 있어요 경우 java.lang.RuntimeExce

    1

    1답변

    각 행이 레코드 인 파일이 있습니다. 특정 필드에서 동일한 값을 가진 모든 레코드를 원한다면 (필드 A로 호출) 동일한 매퍼로 이동하십시오. 나는 이것이 Map-Side Join이라고 들었고 필드 A라고 부르는 파일로 레코드의 레코드를 정렬하는 것이 쉽다는 이야기를 들었습니다. 쉬울수록 데이터가 퍼질 수 있습니다 여러 파일에 걸쳐 있지만 각 파일은 필드 A

    0

    2답변

    데이터 세트를보고 있는데이 원시 데이터가 모두 hadoop 클러스터로 전송되는 방법에 대해 궁금합니다. 나는 하늘빛에 hadoop을 사용하고있다. 아파치 하둡 윈도우 Azure에 : 당신은 윈도우 Azure 스토리지에 (등 구조화되지 않은 데이터 ..) 데이터 세트를 위치하게 한 후, 하둡 클러스터에서 블로그 게시물을 확인을 그것을 액세스 할 수 있습니다

    0

    2답변

    파이썬을 사용하여 Hadoop에서 대량의 피클링 된 데이터를 처리하려고합니다. 내가 뭘 하려는지 내 데이터를 큰 파일의 값으로 키 (파일 ID)와 압축 피클로 표현하는 것입니다. 내가 hadoop으로 처리하고자하는 파일에 ascii로 이진 코드를 넣으려고하면 (\ 키와 값) 구조를 방해하는 '\ t'와 '\ n'값이 많이 생깁니다. hadoop 파일. 내

    0

    1답변

    hadoop 스트리밍에서 주어진 작업을 처리하는 노드의 ID를 가져 오는 방법이 있습니까? 내가 os.environ [ "map_node_id"] 같은 것을 찾고 있어요 #!/usr/bin/env python import os map_input_file = str(os.environ["map_input_file"]) : 비유로서 ,이 조각은 작업에

    3

    1답변

    나는 비누를 스트리밍과 함께 사용하고 있습니다. . 그들이 할 때주의 단위 테스트에도 불구하고, 오류가 불가피 크리프,이 오류 메시지는 모든 하둡이 제공됩니다 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1 at org.apache.ha