스칼라에서 활용할 수있는 훌륭하고 강력한 MapReduce 프레임 워크를 찾고 싶습니다.스칼라에서 MapReduce 구현
답변
Hadoop에 대한 답변을 추가하려면 Hadoop으로 작업하기에 더 좋은 Scala 래퍼가 2 개 이상 있어야합니다. 스칼라지도 감소
(SMR) : http://scala-blogs.org/2008/09/scalable-language-and-scalable.html
SHadoop : http://jonhnny-weslley.blogspot.com/2008/05/shadoop.html
UPD 10월 5일 11
또한 Scoobi 프레임 워크가 있으며 멋진 표현력을 갖추고 있습니다.
http://hadoop.apache.org/은 언어에 구애받지 않습니다.
scouchdb, CouchDB을 사용하는 스칼라 인터페이스에 관심이 있습니다.
또 다른 아이디어는 GridGain입니다. ScalaDudes에는 스칼라와 함께 GridGain을 사용하는 예제가 있습니다. 다른 예는 here입니다.
뒤로, 나는 정확하게이 문제를 만났고 스칼라에서 Hadoop을 쉽게 사용할 수 있도록 약간의 인프라를 작성했다. 나는 혼자서 그것을 한동안 사용했지만 마침내 웹에 올릴 수있었습니다. 이름은 (원래는) ScalaHadoop입니다. 더 jshen의 지점에
는 :
하둡 스트리밍은 단순히 소켓을 사용합니다. 유닉스 스트림을 사용하면 코드 (모든 언어)가 stdin에서 읽고 탭으로 구분 된 스트림을 출력 할 수 있어야합니다. 매퍼를 구현하고 필요한 경우 감속기 (필요한 경우 결합기로 구성)
hadoop의 최상위에있는 scala API가 Scoobi 인 것을 확인할 때, 아직 개발이 많이 진행되었지만 많은 가능성을 보여줍니다. Scala incubator에있는 hadoop 위에 분산 컬렉션을 구현하려는 노력도 있지만 그 노력은 아직 유용하지 않습니다.
Scalding이라고하는 Twitter에서 계단식 연결을위한 새로운 스칼라 래퍼가 있습니다. Scaling에 대한 문서를 매우 간략하게 살펴본 결과인데 캐스케이드 스무딩과의 통합이 이루어 지지만 계단식 : 유형 안전의 주된 문제로 해결되지 않습니다. 계단식 작업은 계단식 튜플 (기본적으로 별도의 스키마가 있거나없는 필드 값 목록)에서 작동합니다. 즉, 유형 오류, 즉 키를 String 및 Key로 Long으로 결합하면 이 런타임 오류를 발생시킵니다.
Scalding에는 유형 안전 API가 있습니다. https://github.com/twitter/scalding/wiki/Type-safe-api-reference 및 Fields API (언급하고있다), long에 문자열을 합치면 run-time 예외는 발생하지 않는다 (둘 다 숫자 일 경우). 물론, 타입 안전 API에서는 이러한 결합이 컴파일러에 의해 금지됩니다. –
개인적으로, 나는 불꽃의 큰 팬이 한
당신은 크게 당신이 디스크를 많이 맵리 듀스 작업에서 발생하는 것입니다 오버 헤드를 줄이고, 메모리 클러스터 컴퓨팅을 할 수있는 능력을 가지고있다.
SHadoop은 꽤 오래되었습니다 - 이전 MR 프레임 워크를 사용합니다. 나는 어떤 점에서 implicits를 업데이트했다 : https://github.com/schmmd/Hadoop-Scala-Commons – schmmd
Scalding 또한 옵션이다. https://github.com/twitter/scalding –