큰 데이터 세트를 통과하는 알고리즘을 사용하면 일부 텍스트 파일을 읽고 해당 행의 특정 검색어를 검색 할 수 있습니다. 나는 자바로 구현했지만 코드를 게시하고 싶지 않아서 나를 위해 그것을 구현할 누군가를 찾고있다.하지만 정말 도움이 많이 필요하다. 이것은 내 프로젝트를 위해 계획된 것이 아니었지만 데이터 세트는 거대하기 때문에 선생님이 내가 이렇게해야한다고 말했습니다.지도로이 알고리즘을 구현하는 데 도움이 필요합니다. Hadoop MapReduce
편집 내가 가진 데이터 세트가 하둡 클러스터에 (내가 버전을 previos 명확히하지 않았다), 그리고 내가 맵리 듀스에 대해 읽고 있던 그 맵리 듀스 구현
을하고 내가 먼저 할 것을 thaught한다 표준 구현을 사용하면 mapreduce를 사용하는 것이 더 쉽습니다. 그러나 알고리즘은 꽤 어리 석고 특별한 것이 없기 때문에 일어날 일이 없으며지도를 줄이면 ... 내 마음을 감쌀 수 없습니다. 당신이 볼 수 그래서 여기
는,
LIST termList (there is method that creates this list from lucene index)
FOLDER topFolder
INPUT topFolder
IF it is folder and not empty
list files (there are 30 sub folders inside)
FOR EACH sub folder
GET file "CheckedFile.txt"
analyze(CheckedFile)
ENDFOR
END IF
Method ANALYZE(CheckedFile)
read CheckedFile
WHILE CheckedFile has next line
GET line
FOR(loops through termList)
GET third word from line
IF third word = term from list
append whole line to string buffer
ENDIF
ENDFOR
END WHILE
OUTPUT string buffer to file
또한 내 알고리즘의 의사 코드 곧 "분석"을 만들 수, 새로운라는 파일이 있습니다 때마다, 나는 그지도가 감소 이해 어렵다 많은 출력에 쓰는가 ???
mapreduce의 직감을 이해하고 제 예제가 mapreduce에 완벽하게 적합하다고 생각합니다.하지만이 작업을 수행 할 때 분명히 충분히 알지 못하고 STAKK입니다!
제발 도와주세요.
안녕하세요! 대답은 고맙습니다 !!! 그러나 나는 내가 이해할 수 있는지 잘 모르겠다 :/당신은 나에게 좀 더 많은 정보를 줄 수 있니? 당신은 아마 그와 같은 몇 가지 예가 있습니까 ??? – Julia