수천 개의 위키피디아 자료로 구성된 레이블이없는 데이터 세트가 있습니다.
이 기사는 내용면에서 밀접한 관련이있는 기사 모음으로 그룹화됩니다.
이 세트 중 하나가 주어지면 모든 기사가 속한 공통 주제를 결정하고 싶습니다.관련 위키피디아 기사의 공통 주제를 찾아보십시오.
예 :
{미적분, 행렬, 정수론}
내가 공통 주제 수학 것을 확인할 수 있습니다 자신의 제목으로 관련 기사의 다음과 같은 설정을 감안할 때
.
각 기사의 텍스트를 분석하여 프로그래밍 방식으로이 작업을 수행하는 간단한 방법이 있습니까?
매우 정확하고 정밀 할 필요는 없습니다.
이것이 가능하지 않은 경우 관련 기사 모음을 가장 정확하게 나타내는 단어 목록만으로 충분할 것입니다.
분명히 tf-idf는 문서 용어 행렬을 메모리에 저장해야합니다. 관련 문서를 하나의 문서로 결합하여 문서 수를 수백 개로 줄일 수는 있지만 위키의 용어 수는 잠재적으로 수십억입니다. 매트릭스에서 필요한 양을 줄이기 위해 용어를 사전 처리하는 방법이 있습니까? –
용어의 수는 걱정하지 않아도됩니다 ... 문제가되는 어휘 크기 (# 용어)는 ... 백만 개 이내 여야합니다 ...이 번호가 너무 높다면 너무 낮은 수집 빈도 (가능한 잡음이 많은 용어) 또는 너무 높은 빈도 (비공식 용어 일 수도 있음)가있는 용어 ... 중지 단어 제거도 필수입니다 ... – Debasis