simhash

    0

    1답변

    나는 simhash를 실행하기 위해 Mac에서 동일한 설정과 코드를 사용합니다. 하지만 우분투에서 실행하면 심해 자체의 구현에 버그가 있습니다. 이러한 문제가 발생 했습니까? objs = [(str (k), Simhash (v)) for k, index_data.items()] 파일 "/usr/local/lib/python2.7/dist-packages/s

    1

    1답변

    : apple aple apply apple 0 0 0 aple 0 0 0 apply 0 0 0 나는 캐릭터 거리, 예를 들면 사과를 계산하려면 -> aple 등 내 최종 결과는 여기에 있습니다 : 현재이 apple aple apply apple 0 32 14 aple 32 0 30 apply 14 30 0

    2

    4답변

    출력에 작은 변화가있을 때 입력의 작은 변화가 발생하는 해시 함수가 있습니까? 예를 들면 다음과 같습니다. hash("Foo") => 9e107d9d372bb6826bd81d3542a419d6 hash("Foo!") => 9e107d9d372bb6826bd81d3542a419d7 <- note small difference

    2

    1답변

    이것은 아직 프로그래밍 문제가 아닙니다! 하지만 웹 페이지를 비교하여 페이지가 동일하거나 유사한 지 확인하고 있습니다. 이것은 개인적인 프로젝트가 아니라 직장/학교 ... (단지 선생님!) 나는 약간의 기본적인 심 보트 구현을 발견했으며, 누군가가 나를 정말 훌륭한 강력한 py/php 심하를 가리킬 수 있는지 궁금해하고 있었다. 이행. 차라리 이것에 바퀴를

    1

    2답변

    해시 함수 사용에 문제가 있습니다. 문서의 모든 단어에 숫자 (128 비트 또는 64 비트)를 할당해야합니다. 따라서 "유사성"의 해시 값은 "유사"와 비슷해야합니다. 그것은 유사성의 가치가 => 10022 (말)라면 비슷한 => 10025를 의미합니다. 비슷한 단어가 있어야합니다. 다른 이름의 해시 값도 비슷해야합니다. 즉, "존"의 해시 값은 "mich

    1

    1답변

    Simhash 모듈 (https://github.com/leonsim/simhash)을 확인하고있었습니다. 나는 Simhash ("String") 거리 (Simhash ("Another string"))는 두 문자열 사이의 해밍 거리라고 가정합니다. 지금, 나는이 이해가 확실하지 않다 "(https://leons.im/posts/a-python-implem

    13

    3답변

    누구나 simhash 함수가 Java로 구현 되었습니까? 나는 이미 검색했지만 아무것도 찾을 수 없습니다.

    1

    1답변

    "distance"가 here처럼 구현 된 두 문자열 사이의 유사도 점수 인 pairwise distance matrix를 만들고 싶습니다. sci-kit를 사용하여 pairwise distance 방법을 배울 생각을했습니다. 이전에 다른 계산에 사용 했었고 쉬운 병렬 처리가 유용했기 때문입니다. def hashdistance(str1, str2):