mapreduce

0열

1답변

mapreduce 작업이 완료되면 _temporary 디렉토리가 출력 위치에서 삭제되지 않습니다.

MapReduce 작업을 통해 데이터를 분석하기 위해 데이터를 구문 분석하고 있습니다. 구문 분석 된 데이터는 일괄 처리 형식으로 제공됩니다. 스파크 스트리밍 작업을 통해 하이브 외부 테이블에로드됩니다. 이것은 실시간 프로세스입니다. 오늘 _temporary 디렉토리이 하이브 테이블에로드되지 않아서 출력 위치에 생성 된 것과 같이 비정상적인 이벤트가 발생하

0열

2답변

Java : 실행 Hadoop MapReduce에 약간의 문제가 있습니다.

MapReduce를 사용하여 단어 개수를 실행하고 싶습니다. 나는이 프로그램을 컴파일하고 실행하기 위해이 스크립트를 작성 package org.myorg; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.c

1열

1답변

파이썬 mapreduce에서 출력 레코드와 일치하지 않는 입력 레코드

파이썬에서 맵 축소 프로그램을 작성하고 있습니다. cat input.csv|python mapper.py > output.tsv 을하지만 난 그것을 아래 명령을 사용하여 실행하면, 내가 원하는 출력하지 않습니다 - - 매퍼 내가 그것을 사용하여 실행할 때 완벽하게 잘 작동 nohup hadoop jar /opt/mapr/hadoop/hadoop-2.7.

0열

1답변

연속 스트림에 대한 작업 축소 작업

텍스트 데이터가 포함 된 거대한 텍스트 파일이 있습니다. 파일의 각 행에는 12 자의 데이터가 들어 있습니다. 맵 축소 작업을 사용하여 해당 파일에서 5 자의 부분 문자열을 찾아야합니다. 입력 파일. abcdefghijkl kahfdjshjsdh sdfkjsdjkjks 값은 cdefg 'CDEFG'할 수있는 파일의 아무 곳이나 발생을 검색 할 수

0열

1답변

Hadoop에서 Map/Reduce 작업이 실패하지 않도록하는 방법

너무 많은 반복 횟수와 감속 기능에서 계산량이 많은 함수가있는 루프가 있습니다. while (context.getCounter(SOLUTION_FLAG.SOLUTION_FOUND).getValue() < 1 && itrCnt < MAX_ITR) MAX_ITR은 반복 카운트입니다 - 사용자 입력 문제는 내가 하둡 클러스터에서 실행하는 경우가 타임 아웃 오

0열

1답변

HADOOP_CLASSPATH를 설정하는 방법 및 방법

maven 프로그램을 작성한 다음 타사 jar를 target/lib 폴더에 넣습니다. 어떤 명령으로 어디서 HADOOP_CLASSPATH에 넣을 수 있습니까? HADOOP_CLASSPATH 설정 위치는 hadoop-env 또는 hadoop-config입니까? 고마워요.

0열

1답변

연결 작업을

환경을 줄이고 점화지도에 폐쇄되었다 : 점화 서버 : 커널 centos6.5 2.6.32-431.el6.x86_64 점화 버전 1.9 hadoop 버전 2.6.2 각각 3 개의 서버 노드에 '-Xms16g -Xmx16g -server -XX : + AggressiveOpts -XX : MaxMetas paceSize = 256m '시작시 설정 점화 맵 감소

0열

1답변

MapReduce에서 전체 파일 읽기

내 프로젝트는식이 습관에 관한 많은 데이터를 얻고 MapReduce (두 가지 MapReduces 사용 계획)를 사용하여 상위 5 개 식품이 주어진 느낌과 어떤 관련이 있는지 알아 보는 것입니다. 다음은 샘플 입력 파일이다 food parsnips 2017/1/24 7:00 food beef 2017/1/24 9:00 food oats 2017/1/24

10열

2답변

클러스터에서 기존 mapreduce 작업 가져 오기 (작업이 실행 중이거나 완료되었을 수 있음)

이전에는 을 얻기 위해 org.apache.hadoop.mapred.JobClient#getJob(org.apache.hadoop.mapred.JobID)을 사용하고있었습니다. 이 호출은 작업 완료 콜백 메소드에서 작성되었지만 작업이 이미 완료된 경우 위의 getJob() 메소드가 해당 메소드를 찾을 수없고 null을 반환하는 타이밍 문제가있는 것으로 보입

0열

1답변

map reduce 작업이 하나만있는 경우 spark와 동일한 성능을 제공합니까?

대부분의 bigdata 작업에는 mapreduce 작업이 하나도 없으므로 중간 데이터를 메모리에 저장하고 HDFS에서의 복제를 피함으로써 스파크가 재생됩니다. 제 질문은 mapreduce 작업이 하나뿐이라면 wordcount입니다. mapreduce 작업이 spark와 동일한 성능을 제공합니까? 그렇지 않다면, 왜? 이것은 일반적인 질문 일 수 있지만 스파