2012-12-30 2 views
3

나는 95 개의 문서에서 가져온 키워드 목록을 가지고있다. 나는 그들의 중요성을 순위를 매기고 싶지만 키워드가 나타나는 문서의 수와 모든 문서 중에서 키워드의 최대 빈도 만 있습니다. 내가 도울 수있는 순위 수식을 찾고 있습니다. 지금은 IDF을 사용하고 있지만 더 좋은 공식이 있는지 알고 싶습니다.Keywords 랭킹

답변

1

단어 빈도는 이미 TV and Movies most frequent words 및 많은 다른 사람 외에, most important and top words에 따라 목록의 많은 유형이 Wikitionary Frequency Lists에 의해 영어 (및 다른 많은 랭 가문)에서 가장 중요한 단어를 나열하여 이루어집니다.

당신이 단어를 순위에 따라 몇 가지 알고리즘을 좋아한다면 난 당신이 멀리 TF-IDF

과에서하지 않는 제안 here 당신이 잠재 의미 색인 알고리즘을 찾을 수있는 나 당신을 위해 자산 있습니다.

희망이 당신이 필요로하는 것입니다.

1

TF-IDF는 확실히 좋은 기반이며 구현하기 쉽습니다.

또한 문서 내에서 용어의 위치와 같은 다른 편향성을 추가하는 것이 일반적입니다. 문서의 시작 부분에서 발생하는 용어 또는 그 제목에서 나오는 용어는 중간 또는 끝에있는 것보다 더 관련성이 높습니다.

하지만 알고리즘 및 바이어스 선택은 문서의 특성에 따라 달라집니다. 예를 들어, 긴 문서 (예 : 연구 논문 또는 서적)는 위치 편향을 필요로하지만 반드시 뉴스 기사는 필요하지 않습니다. "IDF"측정 방법과 동일한 방식으로 문서와 비슷한 유형의 문서를 사용하여 커다란 자료를 계산해야합니다. 예를 들어, 문서가 반도체에 대한 연구 논문 인 경우 "TV 및 영화"자료에서 계산 된 관련성 점수를 원하지는 않습니다.

내 두 센트.