2014-10-25 8 views
0

정보 검색 과정에서 tf-idf로 순위가 매겨진 문서는 쿼리 우도로 순위를 매기는 것과 동일하다는 것을 보여 주어야합니다. 그런 다음 쿼리 우도에 따라 문서 순위를 매기는 방정식을주었습니다 , 질문은 매우 혼란 스럽습니다 ... 나는 쿼리 우도의 방정식으로 시작하여 거기에서 tf-idf의 방정식을 도출했거나 순위를 사용하여 문서의 순위가 동일하게 유지된다는 것을 보여 주려고합니다. 알고리즘 ??? 정말이 일에 도움이 필요해. 나는 매우 어리석은 질문에 너무 많은 시간을 낭비하고있는 것 같은 느낌이 든다. 내 연구 능력에 대한 당신의 의견을 듣고 싶지 않고, 단지 설명이 필요하고, 가능하다면 대답을하고 싶다. 나는 이것에 충분한 시간을 낭비했기 때문에 정말로 도움이 될 것입니다. 나는 며칠 안에 3 가지 과제를 더 가질 것입니다 ...쿼리 우도 대 tf idf

답변

2

tf-idf는 매우 임시 방편 법입니다. 직관적으로는 분명하지만 이론적으로 동기 부여가되지는 않습니다. 언어 모델링 (쿼리 가능성이라고도 함) 및 BM25와 같은보다 체계적인 검색 방법론은 이론적으로 tf-idf 직관력을 확립합니다.

특히 질문에 대해서는 쿼리 가능도 방정식으로 시작하여 수학적으로 tf-idf 경우와 동일해야 함을 보여줍니다.

쿼리 가능성은 P (d | q)로 정렬 된 문서의 순위 목록을 반환합니다. P (d | q)를 추정하기 위해 P (d | q) = P (q | d) P (d)/P (q)를 나타 내기 위해 Bayes 규칙을 사용한다. 분모는 상수이기 때문에 유사도 계산에서 무시할 수 있습니다. P (q | d)는 \ prod P (t | d)로 추정 할 수 있습니다. 여기서 t는 쿼리의 용어입니다.

이제 쿼리 용어 t는 문서 d에서 선택하거나 컬렉션을 구성 할 수 있습니다. \ lambda는 문서에서 용어를 선택할 확률입니다. 보다 구체적

P(t|d) = \lambda tf(t,d)/len(d) + (1-\lambda) cf(t)/cs 
P(q|d) = \prod P(t|d) 

는 (t는, d) 상기 주파수를 TF이다. (d)는 문서 d의 길이, cf (t)는 모음에서 t가 발생하는 횟수, cs는 모음의 총 단어 수입니다.

합 후반부는 문서 D는 독립적이기 때문에, 후자의 식 용어로 나눌 수 있고, 얻을 로그 걸릴

log P(q|d) = \sum log (1 + \lambda/(1-\lambda) (tf(t,d)/len(d)) * (cs/cf(t))) 

     = \sum log (1 + \lambda/(1-\lambda) tf * idf)