2013-11-27 1 views
1

누구든지 html 콘텐츠에서 가장 잘 맞는 url (url의 일부)을 구성하기 위해 Sphinx를 구성 할 수 있습니까?html 콘텐츠의 찾기 url을위한 설정

내 설정 :

index base_index 
{ 
    docinfo   = extern 
    mlock   = 0 
    morphology  = none 
    min_word_len = 3 
    charset_type = utf-8 
    charset_table = 0..9, A..Z->a..z, a..z 
    enable_star  = 1 
    blend_chars  = _, -, @, /, . 
    html_strip  = 0 
} 

내가 SPH_MATCH_EXTENDED 모드와 백엔드 (PHP)에 SphinxAPI를 사용합니다.

검색 작동 방식을 이해할 수 없습니다. "domain.com"을 발견하면 37 개의 결과가 있습니다. "www.domain.com"- 643 결과. 하지만 왜? "domain.com"은 "www.domain.com"의 바늘이며 첫 번째 검색어와 이론적으로 더 많은 결과를 얻어야합니다.

FreeBSD 9.2. 이것은 조금 늦은 2.1.2

(16) 분산 색인 (147GB)

답변

0

을 스핑크스, 그러나 여기 내 생각 어쨌든입니다. 당신이 www.domain.com을 검색 할 때, 스핑크스는 실제로 각각 wwwdomaincom을 찾고처럼

는 것 같습니다. domain.com만을 검색하는 경우 domaincom을 찾고 있습니다. 이 색인 전체에 더 자주 나타나기 때문에 www.domain.com이 더 많은 결과를 반환하는 이유 일 수 있습니다.

URL을 검색 중이므로 검색 방법에 따라 stopwords을 설정합니다. 나를 위해, 나는 wwwcomorg 그리고 기본적으로 모든 최상위 도메인은 불용어로 만들 것입니다. 최상위 도메인을 남겨두고 www을 정지 단어로 설정하는 것이 좋습니다. 이렇게하면 comnet보다 높은 가중치를 부여 할 수 있습니다.

당신 설치하여 중지 단어 오른쪽 사람이 domain.com 스핑크스를 검색 할 때이 domain.com 또는 domain.org 또는 domain.net을 할 수 있는지 실제로 단지, 색인에 domain의 히트를 검색합니다.