2010-02-04 4 views
0

방대한 정적 데이터 세트가 있으며 이에 적용 할 함수가 있습니다.스트림을 동일한 데이터 세트에 대한 쿼리로 처리 할 때 효율적인 MapReduce

f는 reduce (map (f, dataset)) 형식이므로 MapReduce 스켈레톤을 사용합니다. 그러나 각 요청마다 데이터를 분산시키고 싶지 않습니다. (그리고 이상적으로는 f를 빠르게하기 위해 인덱싱을 활용하고 싶습니다). 이 일반적인 경우를 처리하는 MapReduce 구현이 있습니까?

나는 IterativeMapReduce을 살펴 보았지만 그 코드는 약간 다른 경우를 다루는 것으로 보입니다. 코드는 아직 제공되지 않습니다.

답변

0

하둡의 MapReduce (및 Google에서 영감을 얻은 다른 모든지도 축소 뼈대)는 항상 데이터를 분산시키지 않습니다.