minhash

    0

    1답변

    두 개의 Series 객체가있는 경우 [0,0,1] [1,0,0] 두 객체의 교차 및 합집합은 어떻게됩니까? 그들은 부울 값만 포함합니다. 즉, 고유하지 않은 값입니다. 큰 부울 행렬이 있습니다. 나는 그것을 분쇄했고, 지금 나는 각 오리지널 쌍에 대해 Jaccard 유사성을 얻어야한다는 것을 의미한다고 생각하는 거짓 긍정과 네거티브를 찾으려고 노력하고있다

    0

    1답변

    minhashing 알고리즘을 구현하기 위해 무작위 해시 함수 (최대한 많은 수의)를 사용하여 시뮬레이션 할 정수의 많은 순열을 만들어야합니다. 현재 내가 형태의 해시 함수를 사용 a와 b가 무작위로 번호를 생성하고, C는 B의 가장 높은 값보다 소수 더 큰 h(x) = (a*x + b) % c . 어쨌든 코드는 이 너무 느리며으로 실행되며 합리적인 실

    -4

    1답변

    Hie 녀석. 나는 교환을 쌓기에 아주 새롭고 현재 그래프 이론에 대한 연구를하고있다. 내가 초급 수준의 프로그래머 (해시, 버킷, 벡터 등 데이터 구조를 현명하게 알지 못했기 때문에)가 묻는 일련의 질문은 매우 간단합니다. 제 생각은 시간 t에서 i와 j 사이에 엣지가 있다고하는 형식 (타임 스탬프 t, 노드 i, 노드 j)의 데이터 세트를 가져 오는 것

    0

    1답변

    으로 캐스팅 할 수 없습니다 하둡-1.2.1 및 조련사 - 유통 - 0.8 나는 다음과 같은 명령을 HASHMIN 방법을 실행하려고하면 : 나는 어떤을 주셔서 감사합니다 [email protected]:~$ $MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.minhash.MinHashDriver -i tce-da

    0

    1답변

    비슷한 항목을 찾기 위해 Bloom Filters와 Minhashing을 구현해야하는 애플리케이션이 있습니다. 내가 블룸 필터가 구현해야하지만 난 그것을 수행 할 Minhashing 부분을 이해하고 있는지 확인해야합니다 : 모든, aplication 문서에서 K-길이 문자열 저장을의 숫자를 생성 그 중 하나가 Bloom에 삽입됩니다. 여기서 MinHash를

    6

    2답변

    Min Hash를 사용하여 LSH (로컬에 민감한 해싱) 구현에 대한 많은 자습서, 문서 및 코드를 읽었습니다. LSH는 무작위 부분 집합을 해싱하고 그 부분 집합을 해싱하여 두 세트의 Jaccard 계수를 찾으려고 시도합니다. code.google.com에서 구현을 살펴 보았지만 메소드를 이해할 수 없었습니다. 나는 논문 Google news person

    4

    1답변

    kd-trees에 대해 읽었지 만 공간의 차원이 높으면 비효율적입니다. 나는 가치있는 데이터베이스를 가지고 있으며, 쿼리의 특정 해밍 거리 내에있는 값을 찾고 싶다. 예를 들어, 데이터베이스는 32 비트 숫자 목록이며 쿼리 값과 다른 모든 숫자를 3 비트 미만으로 찾고 싶습니다. 나는 MultiVariate 파티션 트리에 대해 들었지만 좋은 참조를 찾을 수

    3

    2답변

    비슷한 문서를 찾을 가까운 이웃 검색 응용 프로그램을 구현 중입니다. 지금까지 나는 LSH 관련 자료의 좋은 부분을 읽었습니다 (LSH 뒤에있는 이론은 혼란스럽고 100 % 아직 풀 수 없습니다). 내 코드는 minhash 함수를 사용하여 서명 행렬을 계산할 수 있습니다 (끝 부분에 가까움). 나는 또한 서명 행렬에 밴딩 전략을 적용한다. 그러나 밴드의 서

    2

    3답변

    저는 각각 하나가 문서 ID와 관련되어있는 엄청난 양의 정수 쌍을 가지고 있습니다. 내 목표는 이제 같은 쌍을 가진 문서를 검색하는 것입니다. Document1 - pair1: (3, 9) - pair2: (5,13) Document2 - pair1: (4234, 13) - pair2: (5,13) map<pair<int,int>, uno

    1

    2답변

    나는 minHash를 사용하여 2 세트 사이의 유사점을 찾는 FindSimilar 클래스를 가지고 있습니다. (그리고이 목표는 훌륭합니다). 내 문제는 두 세트 이상을 비교해야한다는 것입니다. 구체적으로 말해 주어진 숫자 set1과 다른 세트를 비교해야합니다. 다음은 클래스입니다 : import java.util.HashSet; import java.ut