mapreduce

3열

6답변

위키 백과 페이지의 하위 집합 (예 : 100MB)을 얻으려면 어떻게해야합니까? 전체 데이터 세트를 XML로 가져올 수 있지만 그 중 하나 또는 두 개를 좋아할 수있는 것으로 나타났습니다. 나는 그렇게 많이 필요 없다. 맵 축소 알고리즘을 구현하는 실험을하고 싶습니다. 아무 데서도 100 메가의 가치있는 텍스트 샘플 데이터를 찾을 수 있다면 좋을 것입니다.

0열

2답변

Amazon Elastic MapReduce에서 .NET 응용 프로그램 (또는 .NET DLL의 메서드)을 실행할 수 있습니까?

내가 필요로하는 것은 .NET 코드를 하루 한 시간 실행하는 강력한 시스템입니다. EC2를 사용할 수 없기 때문에 모든 데이터가 종료 될 수 있습니다. 특정 시간에 시작할 수있는 가상 PC가 필요하며이 PC는 .exe/service /를 자동으로 시작해야합니다. Windows 인스턴스를 시작하고 코드를 실행하도록 Amazon MapReduce에 요청할 수

4열

3답변

분할 입력 (하둡)

내가 돼지에서 다음과 같은 입력이 있다고 가정) 돼지 라틴어의 문자 배열을 반복하는 방법을 발견했습니다. 내가 TOKENIZE 함수를 발견했지만 그 단어 boundries에 나눕니다. "돼지 라틴어"가이 작업을 수행 할 수 있습니까? 아니면 자바 클래스를 필요로하는이 작업입니까?

18열

2답변

CouchDB : Erlang의 map-reduce

CouchDB 용 Erlang에서 map-reduce 함수를 작성하려면 어떻게해야합니까? Erlang이 JavaScript보다 빠르다는 것을 확신합니다.

25열

5답변

BigTable에서 OLAP을 수행 할 수 있습니까?

이전에는 MySQL에서 실행되는 OLAP 큐브를 사용하여 WebAnalytics를 작성했습니다. OLAP 큐브는 내가 사용했던 방식으로 각 행이 기본적으로 측정 값 및 집계 된 측정 값 인 단순히 큰 테이블입니다 (이 값보다 조금 더 똑똑하게 저장되었습니다). 각 측정에는 차원 (즉, 페이지 관리자, 사용자 에이전트, IP 등) 및 값 집합 (예 : 페이지

28열

7답변

스칼라에서 MapReduce 구현

스칼라에서 활용할 수있는 훌륭하고 강력한 MapReduce 프레임 워크를 찾고 싶습니다.

11열

10답변

스트리밍 데이터 및 Hadoop? (Hadoop Streaming이 아님)

MapReduce 접근법을 사용하여 HTTP를 통해 액세스되는 연속적인 데이터 스트림을 분석하고 싶습니다. 따라서 Apache Hadoop을 살펴 보았습니다. 안타깝게도 Hadoop은 새로운 데이터를 도착한 소비자에게 전달할 수있는 것보다 고정 된 크기의 입력 파일을 사용하여 작업을 시작하려고합니다. 이게 사실인가요? 아니면 제가 빠진 것이 있습니까? 열린

7열

2답변

Delphi 용 MapReduce 라이브러리가 있습니까?

는 최근 간결 구글의 맵리 듀스의 힘 설명이 위대한 기사 읽기 : 마스터 델파이 2009 년 http://www.joelonsoftware.com/items/2006/08/01.html 가, 마르코 칸투는 표시를 다중 스레드 기본적으로지도 부분입니다 익명 기능을 사용하여 루프 MapReduce에 대한 설명은 없지만 완전하지는 않았으며 다른 샘플도있었습니다.

2열

3답변

감속기에 보내기 전에 값을 정렬하십시오.

시스템의 정지를 얻으려면 hadoop에 작은 테스트 응용 프로그램을 빌드하는 방법에 대해 생각하고 있습니다. 내가 염두에두고있는 응용 프로그램은 통계 작업의 영역에 있습니다. 필자는 감속기 기능 (일부 키의 경우 엄청난 수의 값을 가질 수 있음)에서 "각 키에 대한 10 가지 최악의 값"을 원합니다. 내 감속기에 들어가는 값은 기본적으로 "실제 값"과 "실

30열

5답변

MapReduce보다 MPI가 더 적합한 시나리오는 무엇입니까?

필자가 이해하는 한, MPI는 클러스터의 다른 노드가 통신하는 방법을 훨씬 더 잘 제어합니다. MapReduce/Hadoop에서 각 노드는 계산을 수행하고 다른 노드와 데이터를 교환 한 다음 결과 분할을 대조합니다. 간단하지만 프로세스를 반복 할 수 있기 때문에 K-means 또는 PageRank와 같은 알고리즘도 모델에 잘 맞습니다. 지역 일정 계획을 가