2012-05-05 6 views
6

단어 삭제 (stop frequency) 및 형태소 분석 (stemming)의 영향을받는 용어 빈도 (frequency frequency, TF)와 역 문서 빈도 (inverse document frequency, IDF)는 어떻게됩니까?용어 주파수에 스테 밈 효과?

감사합니다.

답변

12

TF 용어 주파수를이다 IDF 그 몫의 로그를 가지고 다음 용어를 포함한 문서의 수에 의해 문서의 수를 분할에 의해 얻어진 역 문서 빈도이다. 주파수가 줄기없는 단어를 이용하여 계산되기 때문에,이 그룹화 들어 이것을 줄기의 발생을 증가시킬 것이다 (.., 재생, 플레이 예)

같은 줄기에서 파생되는 모든 단어의 그룹핑 적용된다 형태소 예를 들어, 두 개의 문서가있는 경우 두 번째 문서에 '재생'이 2 번 있고 '재생 된'횟수가 5 회이고 이고 두 번째 문서에는 '재생'이 3 회 있고 '재생 된'시간이 1 회입니다 ' 두 번째 단어의 첫 번째 글자가 'play'라는 단어가 더 많으므로 두 번째 단어의 첫 번째 글자가 표시됩니다. 두 번째 단어의 마지막 단어는 'play'이고 두 번째 단어의 마지막 단어는 'play'입니다. 첫 번째 글자는 첫 번째 글자가 입니다. 재생 7 번 및 두 번째 문서 스템 재생 4 번 포함되어 있습니다.

스톱 워드 제거에 대해서는 모든 문서에서 자주 발견되며 어떤 키워드에 대해서도 고려하지 않고 장면이없는 높은 주파수를 갖습니다.