CountVectorizer + KMeans를 시도했지만 클러스터 수를 알지 못합니다. gap statistic 메소드를 사용할 때 KMeans에서 클러스터 수를 계산하는 데 많은 시간이 걸렸습니다. NMF는 미리 구성 요소의 수를 결정해야합니다.python scikit-learn을 사용하여 자율 학습 텍스트 분류 (클러스터링)를 수행하는 가장 좋은 알고리즘은 무엇입니까?
2
A
답변
2
자의적이지 않은 텍스트 분류에 가장 적합한 알고리즘은 하나도 없습니다. 그것은 당신이 가지고있는 데이터, 당신이 달성하고자하는 것, 등등에 달려 있습니다.
당신이 클러스터 문제의 수를 피하려면, 당신은 밀도 기반 클러스터링 알고리즘 DBSCAN, 시도 할 수 있습니다 : Wikipedia: 밀도 기반 클러스터링 알고리즘에
DBSCAN을 : 세트의 제공을 어떤 공간에서 점을 가리키면 함께 밀집된 점들 (가까운 이웃들과 많은 점들)을 그룹화하여 저밀도 영역 (가장 가까운 이웃들이 너무 멀리 떨어져 있음)에서만 홀로 존재하는 이상 점으로 표시합니다.
DBSCAN은 포인트를 인접한 밀집된 그룹의 포인트 (예 : 클러스터)에 재귀 적으로 연결하여 클러스터 수를 자동으로 찾습니다.
DBSCAN을 사용하려면 조정할 가장 중요한 매개 변수는 ε (이웃으로 간주되는 최대 거리를 제어 함)과 min_samples (중심점으로 간주되는 인접 지역의 샘플 수)입니다. sklearn이 제공하는 기본 매개 변수로 시작하여 특정 작업에 대해 더 나은 결과를 얻을 수 있도록 조정하십시오.
거의 모든 샘플에 -1이라는 라벨이 붙어 있습니다. 즉, 잡음이 있습니다. 나는 엡실론 = 0.7 시도했지만 도움이되지 않았다. –
아주 작은 min_samples 값과 매우 큰 엡실론으로 시작하여 클러스터링 결과를 평가하는 동안 큰 min_samples 및 작은 엡실론으로 나아가십시오. – mibarg