mapreduce

0열

2답변

하둡 스트리밍을위한 두 가지 프로그램이 있습니다. 물론 mapper (produces <k, v> pair) reducer 는 <k, v>쌍는 stdout로 방출된다. 내 질문은 <k, v>에서 v이 매우 큰 경우, 효율적 하둡에서 실행 않습니다 입니까? 매퍼가 내놓은 v은 1G 이상 (때로는 4G 이상)입니다.

1열

3답변

MapReduce - 상대 값 (평균, 최고 k 등)을 어떻게 계산합니까?

MapReduce 프로세스에서 "글로벌"또는 "친척"값을 계산하는 방법을 찾고 있습니다 - 평균, 합계, 최고 등. 직원의 급여와 연관된 ID가있는 직원 목록이 있다고 가정 해 봅시다. 다른 것들을 잔뜩). 처리 과정의 일부 단계에서 급여의 상위 10 %를받는 근로자가 누구인지 알고 싶습니다. 이를 위해서는 값을 "글로벌"관점으로 파악해야합니다. 모든 값을

1열

3답변

Hadoop MapReduce에서 정렬 및 셔플 최적화

Hadoop에서 연구/구현 기반 프로젝트를 찾고 있는데 위키 페이지 (http://wiki.apache.org/hadoop/ProjectSuggestions)에 게시 된 목록을 발견했습니다. 그러나이 페이지는 2009 년 9 월에 마지막으로 업데이트되었습니다. 따라서 이러한 아이디어 중 일부가 이미 구현되었는지 확실하지 않습니다. 저는 "MR 프레임 워크의

1열

1답변

(작은) 데이터 세트를 위해 Apache Hive에서 쿼리를 병렬화하는 방법

내 데이터 세트의 일부에 대해 최신 하이브를 테스트하고 있습니다. 사용자 정의 SerDe를 통해 읽는 것은 단지 2GB의 로그 파일입니다. 나는 쿼리 (4 개 MR 작업), 나는 로그를 얻고함으로써 간단 그룹을 실행하면 다음과 같은 지도 : 가 감소 100 % : 0 % 지도 : 85 % 감소 : 0 % 지도 : 줄이기 86 % : 0 % , 8 코어 서버

1열

5답변

Hadoop을 사용하여 MapReduce를 시작하는 방법은 무엇입니까?

내가 하둡의 들었지만, 그 밖의 무엇 나는이 주제에 시작하는 데 사용할 수 있습니다 ... 어떤 다른 API가있다? 일반적으로 프로그래밍을 시작하려면 무엇이 필요합니까? 무엇 하면, 프로젝트의 home page이 흥미로운 문제를

1열

1답변

데 어려움이

내가 파이썬 http://code.google.com/p/appengine-mapreduce/wiki/GettingStartedInPython 으로 시작하기 맵리 듀스이다 그러나 아직도 내가 어떻게 그 작업을 이해 할 수없는 나는 아래의 링크를 보았다 이해합니다. 코드 아래에서 실행 중이지만 정확히 무슨 일이 일어나는지 이해할 수 없습니까? mapreduc

2열

2답변

Hadoop MapReduce에서 하나의지도에 여러 개의 텍스트가 아닌 파일 제공

현재 Hadoop MapReduce를 사용하여 Pdf 파일을 구문 분석하는 분산 응용 프로그램을 작성하고 있습니다. MapReduce 작업 입력은 수천 개의 Pdf 파일 (주로 100KB에서 2MB까지)이며 출력은 파싱 된 텍스트 파일 집합입니다. 테스트 목적으로 처음에 나는 Tom White의 Hadoop에서 제공 한 WholeFileInputFormat

4열

3답변

MongoDB, 컬렉션의 각 user_id에 대한 최신 문서를 반환하십시오.

Postgres의 Distinct와 비슷한 기능을 찾고 있습니다. 상태가 텍스트이고 날짜가 날짜 인 문서 모음 {user_id, current_status, date}이 있습니다. mongo 주위에 내 머리를 감싸고 일을하는 가장 좋은 방법에 대한 느낌을 얻는 초기 단계. mapreduce가 가장 좋은 해결책이되고지도가 모두 나오고 줄이면 최신 기록을 유지

0열

2답변

지도를 사용한 디멘션 감소가 분산 컴퓨팅을 사용합니까?

는, 어쩌면 또한 Map-Reduce, 또는 다른 api를 사용하여 당신이 빅 데이터의 차원을 줄이기 위해 응용 프로그램이나 알고리즘을 알고 있습니까 : 당신의하는 치수를 줄이기 위해 유용 할 수 있습니다 Singular Value decomposition 이상과 같은 몇 가지 알고리즘을 아십니까 데이터 세트 분산 컴퓨팅을 사용하는 방법 이 문제를 해결합니

1열

1답변

hadoop 스트리밍에서 파일 이름을 인수로 취하는 이진 실행 파일을 사용하는 방법은 무엇입니까?

'myprog file1 file2'와 같이 파일 이름을 인수로 취하는 이진 실행 파일이 있다고 가정하면 file1에서 읽고 file2에 씁니다. 이진 실행 파일은 stdin을 사용하지 않고 stdout을 방출하지 않습니다. 이 바이너리 실행 파일을 hadoop 스트리밍의 매퍼 또는 감속기로 어떻게 사용할 수 있습니까? 감사!