mapreduce

    3

    1답변

    Hadoop 및 OpenStreetMap에 대한 주말 프로젝트에 대한 아이디어가 필요합니다. 내 EBS 볼륨에서 OpenStreetMap 스냅 샷을 사용하여 AWS EC2 인스턴스에 액세스 할 수 있습니다. OpenStreetMap 데이터는 PostgreSQL 데이터베이스에 있습니다. OpenStreetMap 데이터에서 어떤 종류의 MapReduce 기능을

    3

    2답변

    hadoop 개발을위한 일식 플러그인을 얻으려고하고 있는데, hadoop 0.18.3을 사용하고 있습니다. 이전 버전의 MapReduce 플러그인 (http://www.alphaworks.ibm.com/tech/mapreducetools)을 Eclipse v3.5.2 (M20100211-1343)에/Applications/eclipse/plugins에 복사

    35

    2답변

    포크/조인과 맵/축소의 주요 차이점은 무엇입니까? 분해 및 분포 (데이터와 계산)의 종류가 다른가요?

    9

    4답변

    MapReduce를 처음 접했고 Hadoop 단어 수를 완료했습니다. 이 예제에서는 워드 수가없는 정렬되지 않은 파일 (키 - 값 쌍 포함)을 생성합니다. 다른 MapReduce 작업을 이전 작업과 결합하여 단어 발생 횟수별로 정렬 할 수 있습니까?

    7

    1답변

    현재 Disco에서 PageRank를 구현 중입니다. 반복 알고리즘으로서, 하나의 반복의 결과는 다음 반복의 입력으로 사용됩니다. 모든 링크를 나타내는 큰 파일이 있습니다. 각 파일은 각 행이 페이지를 나타내며 링크의 값을 나타냅니다. Disco의 경우이 파일을 N 개의 청크로 분해 한 다음 MapReduce를 한 번 실행합니다. 결과적으로, 나는 (페이지

    2

    1답변

    주어진 알고리즘에 대한 데이터를 집계해야하므로 내 알고리즘에서 현재 nr_reduces 1을 사용합니다. 입력을 다음 반복에 전달하려면 "chain_reader"를 사용해야합니다. 그러나 매퍼의 결과는 단일 결과 목록이므로 다음 맵 반복은 단일 매퍼로 수행됩니다. 여러 매퍼를 트리거하기 위해 결과를 분할하는 방법이 있습니까?

    3

    1답변

    내 감속기 클래스는 TextOutputFormat (Job이 제공 한 기본 OutputFormat)을 사용하여 출력을 생성합니다. 필자는 MapReduce 작업이 완료된 후이 출력을 소비하여 출력을 집계하는 것을 좋아합니다. 이 외에도, 나는이 프로세스의 출력이 MapReduce 작업의 다음 반복에 의해 소비 될 수 있도록 TextInputFormat을 사

    3

    2답변

    클러스터에서 Unix 셸 명령 (예 : awk 1 라이너)을 병렬로 실행하고 (1 단계) 결과를 중앙 노드로 다시 수집합니다 (2 단계). 업데이트 : 방금 발견했습니다 http://blog.last.fm/2009/04/06/mapreduce-bash-script 정확하게 필요한 것 같습니다.

    2

    2답변

    반복적 인 MapReduce를 사용한 병렬 계산은 주로 동일한 논리에 대해 학습 데이터 크기가 비 병렬 계산에 비해 너무 큰 경우에 정당화 될 수 있다고 말하는 것이 맞습니까? MapReduce 작업을 시작하기위한 오버 헤드가 있음을 알고 있습니다. 많은 수의 반복이 필요한 경우 전체 실행 시간에 중요 할 수 있습니다. 순차적 계산은 메모리가 많은 경우에

    2

    3답변

    다음 BLOB (JSON 객체 포함) 및 ID (이 JSON 객체)를 저장하는 MySQL 데이터베이스가 있습니다. JSON 객체는 많은 다른 정보를 포함합니다. "도시 : 로스 앤젤레스"및 "주 : 캘리포니아"라고 말하십시오. 현재 약 500k 가지 레코드가 있지만 현재 커지고 있습니다. 그리고 각 JSON 객체는 상당히 큽니다. 내 목표는 MySQL 데이