locality-sensitive-hash

    4

    2답변

    나는 약 100M 개의 숫자 벡터 (Minhash 지문)를 가지고 있으며 각 벡터는 0에서 65536 사이의 100 개의 정수를 포함하고 있으며 Jaccard similarity을 사용하여이 지문 데이터베이스에 대해 빠른 유사성 검색을 수행하려고합니다. 쿼리 벡터 (예 : [1,0,30,9,42, ...])는이 쿼리 집합의 교차/합집합 비율을 100M 집합

    0

    1답변

    다른 사람들이 내가 원하는 것을 스스로 설명하는 주제와 관련하여 훌륭한 독서 자료가 있다면 궁금한 점은 다른 소셜 미디어 프로필을 하나의 프로필로 병합 할 수있는 프로그램을 만드는 것입니다. . 예를 들어 트위터 프로필 페이지, facebook 프로필 페이지 및 stackoverflow 프로필 페이지가있는 경우 다른 소셜 미디어 네트워크의 다음 3/2 프로

    6

    2답변

    Min Hash를 사용하여 LSH (로컬에 민감한 해싱) 구현에 대한 많은 자습서, 문서 및 코드를 읽었습니다. LSH는 무작위 부분 집합을 해싱하고 그 부분 집합을 해싱하여 두 세트의 Jaccard 계수를 찾으려고 시도합니다. code.google.com에서 구현을 살펴 보았지만 메소드를 이해할 수 없었습니다. 나는 논문 Google news person

    0

    2답변

    서로 독립적 인 두 개의 서로 다른 시스템에 의해 생성 된 두 개의 배열이 있습니다. 필자는 배열에서 생성 된 소수의 숫자 만 비교함으로써 유사점을 비교하려고합니다. 지금은 배열의 최소, 최대 및 합계 만 비교하고 있지만 거기에 더 좋은 알고리즘이 있는지 궁금합니다. 모든 유형의 해시 알고리즘은 배열 간의 작은 부동 소수점 차이에 민감하지 않아야합니다. 편

    1

    1답변

    가 I이 질문 판독 하였다 How to understand Locality Sensitive Hashing? 을하지만 I는 다음과 같이 코사인 유사도를 계산하는 방정식 인 것을 발견 왜냐하면 (V1, V2) = 왜냐하면 (세타) = (해밍 거리/ 벡터가 완전히 유사하면 해밍 거리가 0이고 코사인 값이 1이된다는 것을 의미합니다. 그러나 벡터가 완전히 같지

    8

    1답변

    현재 저는 Locality-sensitive hashing을 사용하여 가장 가까운 이웃을 찾는 방법을 연구하고 있습니다. 그러나 나는 논문을 읽고 웹 검색을하면서 이렇게하기위한 두 가지 알고리즘을 찾았습니다. 1- L 개의 무작위 LSH 함수가있는 L 개의 해시 테이블을 사용하여 두 개의 유사한 문서가 같은 서명을. 예를 들어 두 개의 문서가 80 % 비슷

    3

    1답변

    내 고질적 인 벡터의 유사성을 측정하려면 내 프로그램에 LSHKIT을 사용해야합니다. 여기에 찾을 수있는 lshkit이라는 라이브러리가 있습니다. http://lshkit.sourceforge.net/ 사용하기가 혼란 스럽습니다. 무엇보다 먼저 LSHKIT 소스를 프로젝트에 추가하는 섹션 3.2로 넘어갔습니다. 모든 src 코드를 하나의 프로젝트에 넣고 오

    4

    1답변

    나는 오디오 핑거 프린팅 시스템에서 일하고 최근에 몇 가지 서류 및 연구를 통해 갈 에 해싱 특히이 페이지 : c# AudioFingerprinting and Locality Sensitive Hashing 는 지금 오디오의 모든 32 ms보다 짧은 시간을 위해 지문의 시리즈를 가지고있다 . LSH 또는 다른 유사성 보존 방법을 사용하여 이러한 개별 지문을

    2

    1답변

    필자는 두 개의 유사한 페이지로 된 좌표와 직사각형 경계와 함께 일련의 문자열을 가지고 있습니다. 이 문자열은 세 가지 방법으로 다릅니다. (i) 문자열을 페이지의 새 위치로 이동할 수 있습니다. (ii) 문자열은 동일한 위치에 있지만 수정되었습니다. (abc -> abd 또는 ABC) (iii) (i)과 (ii)의 조합. (iv) 문자열이 누락되었을 수