나는 simhash를 실행하기 위해 Mac에서 동일한 설정과 코드를 사용합니다. 하지만 우분투에서 실행하면 심해 자체의 구현에 버그가 있습니다. 이러한 문제가 발생 했습니까? objs = [(str (k), Simhash (v)) for k, index_data.items()] 파일 "/usr/local/lib/python2.7/dist-packages/s
: apple aple apply
apple 0 0 0
aple 0 0 0
apply 0 0 0
나는 캐릭터 거리, 예를 들면 사과를 계산하려면 -> aple 등 내 최종 결과는 여기에 있습니다 : 현재이 apple aple apply
apple 0 32 14
aple 32 0 30
apply 14 30 0
출력에 작은 변화가있을 때 입력의 작은 변화가 발생하는 해시 함수가 있습니까? 예를 들면 다음과 같습니다. hash("Foo") => 9e107d9d372bb6826bd81d3542a419d6
hash("Foo!") => 9e107d9d372bb6826bd81d3542a419d7 <- note small difference
이것은 아직 프로그래밍 문제가 아닙니다! 하지만 웹 페이지를 비교하여 페이지가 동일하거나 유사한 지 확인하고 있습니다. 이것은 개인적인 프로젝트가 아니라 직장/학교 ... (단지 선생님!) 나는 약간의 기본적인 심 보트 구현을 발견했으며, 누군가가 나를 정말 훌륭한 강력한 py/php 심하를 가리킬 수 있는지 궁금해하고 있었다. 이행. 차라리 이것에 바퀴를
해시 함수 사용에 문제가 있습니다. 문서의 모든 단어에 숫자 (128 비트 또는 64 비트)를 할당해야합니다. 따라서 "유사성"의 해시 값은 "유사"와 비슷해야합니다. 그것은 유사성의 가치가 => 10022 (말)라면 비슷한 => 10025를 의미합니다. 비슷한 단어가 있어야합니다. 다른 이름의 해시 값도 비슷해야합니다. 즉, "존"의 해시 값은 "mich
Simhash 모듈 (https://github.com/leonsim/simhash)을 확인하고있었습니다. 나는 Simhash ("String") 거리 (Simhash ("Another string"))는 두 문자열 사이의 해밍 거리라고 가정합니다. 지금, 나는이 이해가 확실하지 않다 "(https://leons.im/posts/a-python-implem
"distance"가 here처럼 구현 된 두 문자열 사이의 유사도 점수 인 pairwise distance matrix를 만들고 싶습니다. sci-kit를 사용하여 pairwise distance 방법을 배울 생각을했습니다. 이전에 다른 계산에 사용 했었고 쉬운 병렬 처리가 유용했기 때문입니다. def hashdistance(str1, str2):