우선, 내 질문을 읽어 주셔서 감사합니다.java에서 - 유사한 값 그룹화
나는 그 값에 대해 TF/IDF을 사용하여 얼마나 많은 문서가 더 유사한지를보기 위해 코사인 유사성을 계산했습니다. 다음 행렬을 볼 수 있습니다. 열 이름은 doc1, doc2, doc3과 같으며 행 이름은 doc1, doc2, doc3과 같습니다. 다음 행렬 덕택에 doc1과 doc4는 72 %의 유사성 (0.722711142)을가집니다. 두 문서가 비슷하다고해도 올바른 것입니다. 1000 개의 문서가 있고 각 문서의 주파수를 볼 수 있습니다. 얼마나 많은 이들이 유사한 지보기 위해 매트릭스로. 나는 그들을 결합하기 위해 k-means와 agnes (계층 구조)와 같은 다른 클러스터링을 사용했다. 그것은 클러스터를 만들었습니다. 예를 들어, Cluster1에는 (doc4, doc5, doc3) becoz 값이 있습니다 (0.722711142, 0.602301766, 0.69912109). 그러나이 3 가지 문서가 실제로 동일하면 수동으로 볼 때 그렇지 않습니다. :(나는 무엇을하고 있는가 아니면 클러스터링 이외의 다른 것을 사용한다 ??????
1 0.067305859 -0.027552299 0.602301766 0.722711142
0.067305859 1 0.048492904 0.029151952 -0.034714695
-0.027552299 0.748492904 1 0.610617214 0.010912109
0.602301766 0.029151952 -0.061617214 1 0.034410392
0.722711142 -0.034714695 0.69912109 0.034410392 1
PS :. 값은 당신에게 아이디어를주고 을 당신이 어떤이있는 경우 그냥 잘못 될 수 있습니다 . 질문은 내가 TF/IDF에 익숙하지 않다 감사
모든 팁 ?? 어떤 도움 ???????????????????????? – user238384
사소한 질문 : 해당 문제에 대한 기존 해결책을 적용 할 수 없거나 처음부터 왜 개발합니까? 내 감정은 lucene (또는 solr)가 이것을 구현해야한다고 말합니다. – Karussell
글쎄, lucene 또는 solr는 무엇을할까요? 벌써 했어. 이제 CSV 파일을 가지고 있지만 내 질문이 다릅니다. 당신이 당신의 질문을 설명 할 수 있다면. 나는 더 좋은 방법으로 대답 할 수있다. – user238384