성능상의 이유로 문자열로 식별되는 개체 집합을 그룹으로 나눌 필요가 있습니다. 오브젝트는 하나 또는 다수 점 식별자의 일부를 분리 접두어 (정규화 된) 형태의 문자열에 의해 식별 될 수있다 :혼합 숫자 및 리터럴 식별자에 대한 최상의 해시 함수
12
323
12343
2345233
123123131
ns1:my.label.one
ns1:my.label.two
ns1:my.label.three
ns1:system.text.one
ns2:edit.box.grey
ns2:edit.box.black
ns2:edit.box.mixed
숫자 식별자는 1 내지 수백만한다. 텍스트 식별자는 같은 이름 공간 접두사 (ns1 :)와 동일한 경로 접두어 (edit.box)로 시작하는 경우가 많습니다.
이 용도로 가장 적합한 해시 함수는 무엇입니까? 객체 식별자 통계를 기반으로 버킷의 크기를 예측할 수 있다면 좋을 것입니다. 몇 가지 통계 정보를 기반으로 좋은 해시 함수를 작성하는 데 유용한 문서가 있습니까?
이러한 식별자는 수백만 개가 있지만 해시 함수에 따라 1-2,000 개 그룹으로 분할하는 것이 목적입니다.
다음의 범용 해시 함수 중 하나 이상을 사용하는 것이 좋습니다 : http://www.partow.net/programming/hashfunctions/index.HTML은 매우 빠르고 효율적입니다. –