mrjob

    1

    1답변

    MRJob을 사용하여 MapReduce를 기반으로 프로그램을 작성합니다. 감속기의 매개 변수에 대한 질문이 있습니다. 아시다시피, 감속기 기능은 키와 값인 두 가지 매개 변수를 사용합니다. 가능한 경우 루프 조건을 작성하지 않고 값의 길이를 찾고 싶습니다. 코드는 아래에 나와 있습니다. Error is in reducer_IGPLInit function.

    2

    1답변

    가상 배포 모드에서 내 노트북에 Hadoop with Python 책 Mrjob example 을 실행하려고합니다. start-dfs.sh 반환 : 나는 또한 아무 문제가 Starting namenodes on [localhost] localhost: starting namenode, logging to /home/me/hadoop-2.7.3/logs

    0

    1답변

    을 사용 할 수 있는지 : Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.SizeInGB: 250 Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDevic

    0

    1답변

    MRJob의 작동 방식을 파악하는 데 어려움을 겪고 있습니다. 나는 SQL 쿼리를 만들고 그 행을 산출하려고 노력하고 있으며, 문서에서 세부적으로 설명 된 것은 없다. 지금까지 내 코드 : # To be able to give db file as option. def configure_options(self): super(MyClassName,

    0

    1답변

    시나리오는 파일 (입력)을 처리해야하며 각 레코드에 대해 입력 파일의 특정 필드가 Hadoop 클러스터에 저장된 필드와 일치하는지 확인해야합니다. 우리는 MRJob을 사용하여 입력 파일을 처리하고 HIVE를 사용하여 hadoop 클러스터에서 데이터를 가져 오는 것으로 생각합니다. MRJob 모듈 안에 HIVE를 연결할 수 있는지 여부를 알고 싶습니다. 그렇

    0

    1답변

    이 맵 축소 작업 (아래 코드)에서 가장 많이 평가되는 상위 10 위 제품을 출력하고 싶습니다. 다음과 같은 오류 메시지가 표시됩니다. it = izip (iterable, count (0, -1)) # decorate TypeError : izip 인수 1은 반복을 지원해야합니다. 나는 적용하려고하는 nlargest 기능과 관련이 있다고 생각합니다. 모든

    0

    1답변

    저는 MapReduce를 처음 접했고 아주 간단한 질문이 있습니다. WordCount 문제를 해결 한 다음 문제를 텍스트의 상위 N 레코드로 변경하고 싶습니다. 텍스트의 모든 단어를 정렬하지만 마지막 N 값을 가져올 수는 없습니다. 먼저, 텍스트를 읽고 각 단어를 감속기에 1로 보낸 다음 감속기가 각기 다른 단어의 숫자 단어를 찾습니다. 그런 다음 단어의

    0

    1답변

    Amazon EMR에서 mrjob을 사용하고 있습니다. EMR 4.8.3에서 결함없이 작동하지만 EMR 5.x (그 중 하나)에서 실행할 때, 뭔가가 API를 스트리밍하는 hadoop에 가담하며 많은 오류가 발생합니다. #!/usr/bin/python2.7 from mrjob.job import MRJob import re WORD_RE = re.c

    1

    2답변

    이 python3 프로그램은 map/reduce를 사용하여 텍스트 파일에서 단어의 빈도 목록을 생성하려고 시도합니다. 나는 두 번째 감속기의 yield 문에서 'count'로 표현 된 단어 수를 정렬하는 방법을 알고 싶으므로 가장 큰 계산 값이 마지막에 표시됩니다. 현재, 결과의 꼬리는 다음과 같다 : "0002" "wouldn" "0002" "wrap"

    1

    3답변

    상당히 큰 MRJob 작업 (1,755,638 건)을 실행 중이며 키가 정렬 된 순서로 축소 자에 쓰여지고 있습니다. 키가 분류되어 왜 내가 그들을 정렬 할 수 있도록 내가 요구 하진 않았어 때, 이해가 안 class SubClass(MRJob): PARTITIONER = "org.apache.hadoop.mapred.lib.HashPartiti