mrjob

1열

1답변

MRJob을 사용하여 MapReduce를 기반으로 프로그램을 작성합니다. 감속기의 매개 변수에 대한 질문이 있습니다. 아시다시피, 감속기 기능은 키와 값인 두 가지 매개 변수를 사용합니다. 가능한 경우 루프 조건을 작성하지 않고 값의 길이를 찾고 싶습니다. 코드는 아래에 나와 있습니다. Error is in reducer_IGPLInit function.

2열

1답변

hadoop 모드에서 Mrjob : 입력 작업이 잘못되었습니다. 입력 경로가 잘못되었습니다. 파일이 없습니다.

가상 배포 모드에서 내 노트북에 Hadoop with Python 책 Mrjob example 을 실행하려고합니다. start-dfs.sh 반환 : 나는 또한 아무 문제가 Starting namenodes on [localhost] localhost: starting namenode, logging to /home/me/hadoop-2.7.3/logs

0열

1답변

아마존 EMR : 인스턴스에 EBS 볼륨을 연결하면서 어떻게이 책은 내가 추가 볼륨에 대한 설정을 내 mrjob.conf에서

을 사용 할 수 있는지 : Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.SizeInGB: 250 Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDevic

0열

1답변

MRJob을 사용하여 SQL 쿼리에서 행을 처리하는 방법

MRJob의 작동 방식을 파악하는 데 어려움을 겪고 있습니다. 나는 SQL 쿼리를 만들고 그 행을 산출하려고 노력하고 있으며, 문서에서 세부적으로 설명 된 것은 없다. 지금까지 내 코드 : # To be able to give db file as option. def configure_options(self): super(MyClassName,

0열

1답변

MRJob에 HIVE 연결

시나리오는 파일 (입력)을 처리해야하며 각 레코드에 대해 입력 파일의 특정 필드가 Hadoop 클러스터에 저장된 필드와 일치하는지 확인해야합니다. 우리는 MRJob을 사용하여 입력 파일을 처리하고 HIVE를 사용하여 hadoop 클러스터에서 데이터를 가져 오는 것으로 생각합니다. MRJob 모듈 안에 HIVE를 연결할 수 있는지 여부를 알고 싶습니다. 그렇

0열

1답변

MapReduce 작업이 Python의 MRjob을 사용하여 상위 10 개 값을 산출합니다.

이 맵 축소 작업 (아래 코드)에서 가장 많이 평가되는 상위 10 위 제품을 출력하고 싶습니다. 다음과 같은 오류 메시지가 표시됩니다. it = izip (iterable, count (0, -1)) # decorate TypeError : izip 인수 1은 반복을 지원해야합니다. 나는 적용하려고하는 nlargest 기능과 관련이 있다고 생각합니다. 모든

0열

1답변

상위 N 개 파이썬의 MapReduce를 기록하십시오.

저는 MapReduce를 처음 접했고 아주 간단한 질문이 있습니다. WordCount 문제를 해결 한 다음 문제를 텍스트의 상위 N 레코드로 변경하고 싶습니다. 텍스트의 모든 단어를 정렬하지만 마지막 N 값을 가져올 수는 없습니다. 먼저, 텍스트를 읽고 각 단어를 감속기에 1로 보낸 다음 감속기가 각기 다른 단어의 숫자 단어를 찾습니다. 그런 다음 단어의

0열

1답변

mrjob은 Amazon EMR 5.x에서는 작동하지 않지만 EMR4.8.3에서는 실행됩니다.

Amazon EMR에서 mrjob을 사용하고 있습니다. EMR 4.8.3에서 결함없이 작동하지만 EMR 5.x (그 중 하나)에서 실행할 때, 뭔가가 API를 스트리밍하는 hadoop에 가담하며 많은 오류가 발생합니다. #!/usr/bin/python2.7 from mrjob.job import MRJob import re WORD_RE = re.c

1열

2답변

카운트의 2 단계 순서 지정/축소

이 python3 프로그램은 map/reduce를 사용하여 텍스트 파일에서 단어의 빈도 목록을 생성하려고 시도합니다. 나는 두 번째 감속기의 yield 문에서 'count'로 표현 된 단어 수를 정렬하는 방법을 알고 싶으므로 가장 큰 계산 값이 마지막에 표시됩니다. 현재, 결과의 꼬리는 다음과 같다 : "0002" "wouldn" "0002" "wrap"

1열

3답변

MRJob이 내 키를 정렬하는 이유는 무엇입니까?

상당히 큰 MRJob 작업 (1,755,638 건)을 실행 중이며 키가 정렬 된 순서로 축소 자에 쓰여지고 있습니다. 키가 분류되어 왜 내가 그들을 정렬 할 수 있도록 내가 요구 하진 않았어 때, 이해가 안 class SubClass(MRJob): PARTITIONER = "org.apache.hadoop.mapred.lib.HashPartiti