트윗 세트를 묶고 싶습니다. 나는 이미 트윗을 가져 와서 정리하고, Naive Bayes 분류기를 적용하여 긍정적이고 부정적인 두 파일로 나누었습니다. 마지막으로, 나는 각 트윗 사이의 유사성을 검색하려면 다음을 수행 한 : 이제이가, 내가 개까지 추가 할 수 있습니다 다음 단계를 생각하고 다른 각 문장 상대의 유사성을 측정하도록되어의미 론적 분석 후 클러스터링하기
with open("positive.txt", "r") as pt:
lines = pt.readlines()
for lineA in lines:
vectorA = text_to_vector(lineA)
for lineB in lines:
vectorB = text_to_vector(lineB)
cosine = get_cosine(vectorA, vectorB)
print lineA, "\n", lineB, "\n", "Cosine:", cosine
모든 문구에 대한 값은 모든 문장에 대한 문장 n의 관계에 대한 모든 코사인 값을 더하고,이를 수행하고 KMeans와 같은 것을 적용한 후에 올바른 방법을 취하고 있는지 확실하지 않습니다. 여기, 그래서 어떤 도움을 많이 주시면 감사하겠습니다.
많은 선택 사항이 있지만 내 경험에 따르면 모두 짹짹에서 작동하지 않습니다. 당신은 중복 (쉬운), 거의 중복 (더 큰 도전, 규모). 하지만 클러스터 - 너무 많은 쓰레기가 트위터에서 작동합니다. –