2014-12-31 5 views

답변

2

이 구현보십시오 :

https://github.com/mrsqueeze/spark-hash

의 README에서 인용을, LSH 및 minhashing의 큰 설명이 "이 구현은 크게 대규모 데이터 세트의 광업의 제 3 장에 설명 된 알고리즘을 기반으로했다" .

+0

시도해 보겠습니다. 감사. – user3636583

+0

@ user3636583 FLANN, ANNOY, nearpy, SparseLSH, LSHForest (scikit-learn) 등과 비교하여 사용 사례에 대한 요금을 알려주십시오. 개인적으로 위의 Spark 구현이 매우 배가 고프다는 것을 알았습니다. – Nilesh

1

최근 출시 된 Spark (2.1.0) 버전은 LSH에 대한 내장 지원을 제공하지만 분명히 in the Scala API (PySpark에서는 아직 지원되지 않음) 만 지원합니다.