hadoop-streaming

0열

1답변

hadoop-streaming : 작업이 완료되면 사후 처리 자동화 하시겠습니까?

단계 1은 내가 작업이 완료되면 프로세스 단계 2 데이터의 양에 을 기반으로 변수 시간이 소요 하둡 스트리밍 직업을 가지고, 나는 MongoDB를에 수입에 모든 데이터 덤프를 필요로하고 평평한 CSV를 만들 질문 내가 하둡 스트리밍을 사용하여 1 단계와 2 단계를 수동으로 일을 방지하기 위해 2 단계 접착제 수있는 방법이 있나요 그것의 을 파일?

0열

2답변

최적의 슬롯 수를 얻는 hadoop 스트리밍

스트리밍 맵 축소 작업이 있습니다. 나는 처리를 위해 약 30 개의 슬롯을 가지고있다. 처음에는 모든 레코드의 첫 번째 필드가 숫자이고, 첫 번째 레코드 번호 (첫 번째 필드)가 1이고 두 번째 레코드 번호 (첫 번째 필드)가 2 인 경우 60 개의 레코드 (필드는 탭으로 구분됨)를 포함하는 단일 입력 파일을 얻습니다. . 다음 레코드 처리를 위해이 레코드

1열

1답변

Hadoop 스트리밍에서 노드 당 최대 감속기 수를 설정하는 방법은 무엇입니까?

C++ 기반 MapReduce 작업이 있고 Hadoop 스트리밍을 사용하고 있습니다. 그러나 명령 줄 구성에서 18으로 설정 한 경우에도 노드 당 최대 감속기 수가 7이됩니다 (mapred.tasktracker.reduce.tasks.maximum=18). 감속기가 더 많은 감축 작업을 수행하는 것을 멈추게하는 다른 방법이 있습니까?

6열

2답변

hadoop-streaming에 파일이 아닌 디렉토리를 전달 하시겠습니까?

제 직업에서는 많은 역사적인 로그 집합을 파싱해야합니다. 개별 고객 (수천 명이 있음)에는 날짜별로 구분 된 수백 개의 로그 하위 디렉토리가있을 수 있습니다. 로그/Customer_One/2011-01-02-001 로그/Customer_One/2012-02-03-001 로그/Customer_One/2012-02-03-002 : 예를 들어, 로그/Custom

0열

1답변

Hadoop Streaming -file 플래그를 Amazon ElasticMapreduce에 전달하려면 어떻게해야합니까?

-file 플래그를 사용하면 실행 파일을 작업 제출의 일부로 묶을 수 있으므로 먼저 실행 파일을 S3에 수동으로 복사하지 않고 MapReduce를 실행할 수 있습니다. Amazon의 elastic-mapreduce 명령에 -file 플래그를 사용하는 방법이 있습니까? 그렇지 않다면 실행하려는 바이너리를 업로드하는 가장 쉬운 방법은 무엇입니까?

1열

2답변

지도/축소 작업 중 하둡 스트리밍 오류가 발생합니다.

단일 노드에서 hadoop 1.0.1을 사용하고 있으며 Python 2.7을 사용하여 탭으로 구분 된 파일을 스트리밍하려고합니다. Michael Noll의 단어 카운트 스크립트를 hadoop/python을 사용하여 실행할 수는 있지만 매우 단순한 매퍼 (mapper)와 감속기 (reducer)를 사용하여 파일을 복제하는 것은 불가능합니다. 여기 import

0열

1답변

hadoop에서 파일 분할/파티션

hadoop 파일 시스템에서 X와 Y라는 두 파일이 있습니다. 일반적으로 hadoop은 파일 크기가 64MB 인 X와 Y 파일을 만듭니다. hadoop이 두 파일을 나누어서 X에서 32MB, Y에서 32MB로 64MB 청크를 만들도록 할 수 있습니까? 즉, 파일 분할의 기본 동작을 무시할 수 있습니까?

0열

3답변

파이썬 및 파이썬 서브 프로세스로 Hadoop 스트리밍

기본 hadoop 마스터 슬레이브 클러스터 설정을 설정했으며 클러스터에서 mapreduce 프로그램 (파이썬 포함)을 실행할 수 있습니다. 이제 C 바이너리에 액세스하는 파이썬 코드를 실행하려고합니다. 따라서 서브 프로세스 모듈을 사용하고 있습니다. hadoop 스트리밍을 일반 파이썬 코드에 사용할 수 있지만 바이너리에 액세스하기 위해 서브 프로세스 모듈을

0열

1답변

Hadoop 스트리밍 작업 실패

C++로 작성된 비교적 간단한 프로그램이 있으며 MapReduce 작업 (Hadoop의 내 버전은 Cloudera)에 Hadoop Streaming을 사용하고 있습니다. 최근에 많은 스트리밍 작업이 계속 실패하고 끝까지 성공적으로 끝나는 동안 작업 추적기가 다시 시작한다는 사실을 발견했습니다. 사용자 로그를 추적했는데 일부 MapReduce 작업이 제로 입

2열

2답변

하둡 스트리밍 : 매퍼가 실행될 때 PYTHONPATH가 작동하지

(가장 최근의 난에서 설정 PYTHONPATH이 그리고 내가지도-감소 작업 그것은 역 추적을 말하는 실패 실행할 때를 제외하고도 잘 작동 last call) : 파일 "/work/app/hadoop/tmp/mapred/local/taskTracker/hduser/jobcache/job_201203091218_0006/attempt_201203091218_0