나는 자신의 주제를 기반으로 트위터 해시 태그의 무리를 클러스터 찾고 있어요. 동일한 주제와 관련된 모든 해시 태그는 동일한 클러스터 아래로 이동합니다. 나는 인기 있고 효율적인 어떤 파이썬 기반 라이브러리를 찾고 있었다. 또한 알고리즘을 결합하기 위해 고려해야 할 알고리즘에 대한 제안을 원합니다.텍스트 클러스터링 알고리즘
-1
A
답변
1
행운을 빕니다 : 트위터 데이터가 너무 지저분하다, 나는 당신이 의미있는 결과를 얻을 수있을 것입니다 의심한다. 당신이 당신의 데이터 작업을 얻을 수
은 확실히 TF-IDF을 시도하고 많은 알고리즘.하지만 당신은 이와 같은 트윗을 함께 할 예정 :
쿨 : #HashTagIMadeUpForYourSOQuestionASDAS
"항목"이 있어야한다
? 클러스터링 알고리즘을 어떻게 생각하십니까 의미가 있습니다 cluster this?
0
나는 파이썬 자연 언어 처리 (NLTK 패키지)를 권 해드립니다 할 수 있습니다. 그러나 슬픈 것처럼 Twiter로 도전 할 수도 있습니다 (그러나 재미도 많이 있습니다). 나도 알아, 그게 뭐야?))
고맙습니다. 의미있는 결과를 얻는 것이 어려울 것이라는 것을 알고 있습니다. 하지만 의미있는 해시 태그를 클러스터로 그룹화하려고합니다. 나머지는 별도의 클러스터에 넣을 수 있습니다. 내가 볼 수있는 알고리즘은 무엇이며 이미 해시 태그에 태그를 달아 주제별로 클러스터링 할 수있는 도구가 있습니까? –
IMHO가 만족할만한 결과를 산출하는 알고리즘을 알지 못합니다. 시동기의 경우 태그가 함께 언급되는 빈도를 계산하고 강하게 연결된 구성 요소를 사용하십시오. 이것은 "클러스터링"알고리즘에서는 발견되지 않지만 그래프 알고리즘에서는 발견되지 않습니다. –
알았어. 내가 고려할 수있는 다른 요소는 무엇입니까? –