mapreduce

3열

1답변

Hadoop 및 OpenStreetMap에 대한 주말 프로젝트에 대한 아이디어가 필요합니다. 내 EBS 볼륨에서 OpenStreetMap 스냅 샷을 사용하여 AWS EC2 인스턴스에 액세스 할 수 있습니다. OpenStreetMap 데이터는 PostgreSQL 데이터베이스에 있습니다. OpenStreetMap 데이터에서 어떤 종류의 MapReduce 기능을

3열

2답변

Eclipse MapReduce 플러그인을 어떻게 완벽하게 제거합니까?

hadoop 개발을위한 일식 플러그인을 얻으려고하고 있는데, hadoop 0.18.3을 사용하고 있습니다. 이전 버전의 MapReduce 플러그인 (http://www.alphaworks.ibm.com/tech/mapreducetools)을 Eclipse v3.5.2 (M20100211-1343)에/Applications/eclipse/plugins에 복사

35열

2답변

포크/조인과 맵/리 듀스의 차이점

포크/조인과 맵/축소의 주요 차이점은 무엇입니까? 분해 및 분포 (데이터와 계산)의 종류가 다른가요?

9열

4답변

Hadoop MapReduce를 사용한 정렬 된 단어 수

MapReduce를 처음 접했고 Hadoop 단어 수를 완료했습니다. 이 예제에서는 워드 수가없는 정렬되지 않은 파일 (키 - 값 쌍 포함)을 생성합니다. 다른 MapReduce 작업을 이전 작업과 결합하여 단어 발생 횟수별로 정렬 할 수 있습니까?

7열

1답변

Disco/MapReduce : 이전 반복의 결과를 새로운 반복에 대한 입력으로 사용

현재 Disco에서 PageRank를 구현 중입니다. 반복 알고리즘으로서, 하나의 반복의 결과는 다음 반복의 입력으로 사용됩니다. 모든 링크를 나타내는 큰 파일이 있습니다. 각 파일은 각 행이 페이지를 나타내며 링크의 값을 나타냅니다. Disco의 경우이 파일을 N 개의 청크로 분해 한 다음 MapReduce를 한 번 실행합니다. 결과적으로, 나는 (페이지

2열

1답변

Disco/MapReduce : 분할 데이터에서 chain_reader 사용

주어진 알고리즘에 대한 데이터를 집계해야하므로 내 알고리즘에서 현재 nr_reduces 1을 사용합니다. 입력을 다음 반복에 전달하려면 "chain_reader"를 사용해야합니다. 그러나 매퍼의 결과는 단일 결과 목록이므로 다음 맵 반복은 단일 매퍼로 수행됩니다. 여러 매퍼를 트리거하기 위해 결과를 분할하는 방법이 있습니까?

3열

1답변

Hadoop 0.2 : TextOutputFormat의 출력을 읽는 방법?

내 감속기 클래스는 TextOutputFormat (Job이 제공 한 기본 OutputFormat)을 사용하여 출력을 생성합니다. 필자는 MapReduce 작업이 완료된 후이 출력을 소비하여 출력을 집계하는 것을 좋아합니다. 이 외에도, 나는이 프로세스의 출력이 MapReduce 작업의 다음 반복에 의해 소비 될 수 있도록 TextInputFormat을 사

3열

2답변

셸 명령을 사용하여 MapReduce를 구현하려면 어떻게해야합니까?

클러스터에서 Unix 셸 명령 (예 : awk 1 라이너)을 병렬로 실행하고 (1 단계) 결과를 중앙 노드로 다시 수집합니다 (2 단계). 업데이트 : 방금 발견했습니다 http://blog.last.fm/2009/04/06/mapreduce-bash-script 정확하게 필요한 것 같습니다.

2열

2답변

Hadoop : Iterative MapReduce 성능

반복적 인 MapReduce를 사용한 병렬 계산은 주로 동일한 논리에 대해 학습 데이터 크기가 비 병렬 계산에 비해 너무 큰 경우에 정당화 될 수 있다고 말하는 것이 맞습니까? MapReduce 작업을 시작하기위한 오버 헤드가 있음을 알고 있습니다. 많은 수의 반복이 필요한 경우 전체 실행 시간에 중요 할 수 있습니다. 순차적 계산은 메모리가 많은 경우에

2열

3답변

Hadoop Map/Reduce - 다음을 수행하는 간단한 사용 예제

다음 BLOB (JSON 객체 포함) 및 ID (이 JSON 객체)를 저장하는 MySQL 데이터베이스가 있습니다. JSON 객체는 많은 다른 정보를 포함합니다. "도시 : 로스 앤젤레스"및 "주 : 캘리포니아"라고 말하십시오. 현재 약 500k 가지 레코드가 있지만 현재 커지고 있습니다. 그리고 각 JSON 객체는 상당히 큽니다. 내 목표는 MySQL 데이