mapreduce

    0

    2답변

    하둡 스트리밍을위한 두 가지 프로그램이 있습니다. 물론 mapper (produces <k, v> pair) reducer 는 <k, v>쌍는 stdout로 방출된다. 내 질문은 <k, v>에서 v이 매우 큰 경우, 효율적 하둡에서 실행 않습니다 입니까? 매퍼가 내놓은 v은 1G 이상 (때로는 4G 이상)입니다.

    1

    3답변

    MapReduce 프로세스에서 "글로벌"또는 "친척"값을 계산하는 방법을 찾고 있습니다 - 평균, 합계, 최고 등. 직원의 급여와 연관된 ID가있는 직원 목록이 있다고 가정 해 봅시다. 다른 것들을 잔뜩). 처리 과정의 일부 단계에서 급여의 상위 10 %를받는 근로자가 누구인지 알고 싶습니다. 이를 위해서는 값을 "글로벌"관점으로 파악해야합니다. 모든 값을

    1

    3답변

    Hadoop에서 연구/구현 기반 프로젝트를 찾고 있는데 위키 페이지 (http://wiki.apache.org/hadoop/ProjectSuggestions)에 게시 된 목록을 발견했습니다. 그러나이 페이지는 2009 년 9 월에 마지막으로 업데이트되었습니다. 따라서 이러한 아이디어 중 일부가 이미 구현되었는지 확실하지 않습니다. 저는 "MR 프레임 워크의

    1

    1답변

    내 데이터 세트의 일부에 대해 최신 하이브를 테스트하고 있습니다. 사용자 정의 SerDe를 통해 읽는 것은 단지 2GB의 로그 파일입니다. 나는 쿼리 (4 개 MR 작업), 나는 로그를 얻고함으로써 간단 그룹을 실행하면 다음과 같은 지도 : 가 감소 100 % : 0 % 지도 : 85 % 감소 : 0 % 지도 : 줄이기 86 % : 0 % , 8 코어 서버

    1

    5답변

    내가 하둡의 들었지만, 그 밖의 무엇 나는이 주제에 시작하는 데 사용할 수 있습니다 ... 어떤 다른 API가있다? 일반적으로 프로그래밍을 시작하려면 무엇이 필요합니까? 무엇 하면, 프로젝트의 home page이 흥미로운 문제를

    1

    1답변

    내가 파이썬 http://code.google.com/p/appengine-mapreduce/wiki/GettingStartedInPython 으로 시작하기 맵리 듀스이다 그러나 아직도 내가 어떻게 그 작업을 이해 할 수없는 나는 아래의 링크를 보았다 이해합니다. 코드 아래에서 실행 중이지만 정확히 무슨 일이 일어나는지 이해할 수 없습니까? mapreduc

    2

    2답변

    현재 Hadoop MapReduce를 사용하여 Pdf 파일을 구문 분석하는 분산 응용 프로그램을 작성하고 있습니다. MapReduce 작업 입력은 수천 개의 Pdf 파일 (주로 100KB에서 2MB까지)이며 출력은 파싱 된 텍스트 파일 집합입니다. 테스트 목적으로 처음에 나는 Tom White의 Hadoop에서 제공 한 WholeFileInputFormat

    4

    3답변

    Postgres의 Distinct와 비슷한 기능을 찾고 있습니다. 상태가 텍스트이고 날짜가 날짜 인 문서 모음 {user_id, current_status, date}이 있습니다. mongo 주위에 내 머리를 감싸고 일을하는 가장 좋은 방법에 대한 느낌을 얻는 초기 단계. mapreduce가 가장 좋은 해결책이되고지도가 모두 나오고 줄이면 최신 기록을 유지

    0

    2답변

    는, 어쩌면 또한 Map-Reduce, 또는 다른 api를 사용하여 당신이 빅 데이터의 차원을 줄이기 위해 응용 프로그램이나 알고리즘을 알고 있습니까 : 당신의하는 치수를 줄이기 위해 유용 할 수 있습니다 Singular Value decomposition 이상과 같은 몇 가지 알고리즘을 아십니까 데이터 세트 분산 컴퓨팅을 사용하는 방법 이 문제를 해결합니

    1

    1답변

    'myprog file1 file2'와 같이 파일 이름을 인수로 취하는 이진 실행 파일이 있다고 가정하면 file1에서 읽고 file2에 씁니다. 이진 실행 파일은 stdin을 사용하지 않고 stdout을 방출하지 않습니다. 이 바이너리 실행 파일을 hadoop 스트리밍의 매퍼 또는 감속기로 어떻게 사용할 수 있습니까? 감사!