2013-12-04 8 views
1

검색의 복잡함에 대해 궁금합니다. tf-idf는 코퍼스 내의 문서에서 단어의 중요성을 평가하는 데 사용됩니다. 또한 페이지 순위 알고리즘은 휴리스틱으로 간주 될 확률을 사용하여 웹 페이지의 상대적 중요도를 순위 지정한다는 점도 이해합니다. 그러나 특정 쿼리가 주어질 때 두 상호 작용이 어떻게 연관되는지는 잘 모르겠습니다.검색어가 있으면 Google은 표시 할 문서를 어떻게 결정합니까?

직관적으로, 나는 언어 모델이 문서를 순위 매기기 위해 사용될 것이라고 생각할 것이다. 이것은 tf-idf와 관련이있다. 그러나 페이지 순위 알고리즘은 문서 검색과 어떤 관련이 있습니까?

답변

0

검색 및 검색은 검색 엔진의 개별 기능입니다.

검색 구성 요소의 목적은 순위가 매겨진 문서를 결정하는 것입니다. 순위 구성 요소의 목적은 어떤 문서가 쿼리와 가장 관련이 있는지 결정하는 것입니다. 페이지 순위는 쿼리가 관련성이 있는지 여부를 결정하는 요소 중 하나로 순위 단계에 적용됩니다. 이 기능은 웹 검색 엔진의 컨텍스트로 인해 일반적으로 다른 사람들이 유용하다고 생각한 웹 페이지를 검색하려고하기 때문에 효과적입니다.

페이지 순위를 사용하여 문서의 순위를 결정할 수도 있지만 Google의 접근 방식은 페이지의 순위를 올리거나 내리는 것 (들어오고 나가는 링크와 그 강도를 기반으로)보다는 필터링.

제목 질문에 대답하는 측면에서 ...
이것은 매우 복잡하며, 나는 그들을 위해 일하지 않습니다. 그래서 이것은 거의 추측이지만, 나는 그들의 시스템이 몇 가지 기본 개념을 중심으로 구축되었다고 생각합니다.

  1. 검색어가 맞습니까?
    맞춤법 검사, 추천 검색어
  2. 이 페이지의 내용이 검색어와 관련이 있습니까?
    tf-idf 및 기타 **, 구문/근접 검색
  3. 이 페이지의 평판이 좋습니까?
    페이지 순위, Google 애널리틱스의 의견
  4. 이 페이지로 연결되는 링크는 검색어의 콘텐츠와 일치합니까?
    링크 분석
  5. 이 사람 (또는 사람들이 좋아하는 사람)이이 페이지의 콘텐츠를보고 싶습니까?
    개인 설정, 현지화 등
  6. 이미 한 웹 사이트의 결과가 너무 많습니까?
    다양성, 고유성
  7. 사용자가이 검색어로 무엇을 의미합니까?
    적합성 피드백, 형태소 분석, 질의 확장)

좀 더 거기에 확신 해요,하지만 그건 그냥 내 머리 위로 떨어져 있습니다.

** 정보 검색에 사용 된 여러 가지 방법이 많이 있습니다. TF-IDF를 이미 알고 있다면 BM25이 다음에 보게 될 것입니다.

참고 : 다른 검색 컨텍스트가있는 경우 이러한 방법이 제대로 작동하지 않을 수 있습니다. 여러 모델에 더 적합한 검색 유형이 있습니다.예를 들어 데이터가 스키마에 따라 구조화 된 경우 가장 좋은 방법은 데이터베이스를 사용하는 것입니다.