내가 연구를하고있는 프로젝트의 일환으로 스파크에서 LSH의 해시 기능을 사용하는 방법을 찾고있다. 그렇게 할 방법이 있습니까?국부적으로 민감한 해싱을위한 스파크 구현
2
A
답변
2
이 구현보십시오 :
https://github.com/mrsqueeze/spark-hash
의 README에서 인용을, LSH 및 minhashing의 큰 설명이 "이 구현은 크게 대규모 데이터 세트의 광업의 제 3 장에 설명 된 알고리즘을 기반으로했다" .
1
최근 출시 된 Spark (2.1.0) 버전은 LSH에 대한 내장 지원을 제공하지만 분명히 in the Scala API (PySpark에서는 아직 지원되지 않음) 만 지원합니다.
시도해 보겠습니다. 감사. – user3636583
@ user3636583 FLANN, ANNOY, nearpy, SparseLSH, LSHForest (scikit-learn) 등과 비교하여 사용 사례에 대한 요금을 알려주십시오. 개인적으로 위의 Spark 구현이 매우 배가 고프다는 것을 알았습니다. – Nilesh