문자열 목록이 있습니다. (각 GB 당 4-5 개의 큰 파일에 흩어져있는 ID 및 문자열의 꽤 큰 목록). 이러한 문자열은 다음과 같이 지정됩니다 :거대한 문자열 목록의 텍스트 마이닝
1, 안녕하세요
2, 안녕 U 어떻게 r에?
2, 어떻게 되나요?
3 (여기서,
3, 이것은 무엇을 의미 하는가가
가 지금은 이러한 문자열에 대한 텍스트 마이닝을 수행 할 나는 다음과 같은 방법으로 문자열을 표시하고자하는 dendrogram은 준비하려면 무엇을 의미하는지
3,
1-hi
2-Hi 어떻게?
----How r u?
3 - 이것은 무엇을 의미합니까?
----what it means?
3 - 어디 있니?
이 출력은 id (특정 문자열을 사용한 사람의 ID라고 가정) 다음에 오는 쉼표 뒤에 오는 문자열의 유사성을 기반으로합니다. 다른 사람이 같은 단어를 사용했다면 사용했던 문자열에 따라 그룹화해야합니다.
이제는 간단한 작업 인 것 같습니다. 그러나 나는 hadoop/Mahout이나 클러스터 된 리눅스 머신에서 엄청난 양의 데이터를 지원할 수있는 무언가를 원한다. 또한 해결책에 대해이 문제에 어떻게 접근해야합니까? 나는 이미 Mahout에서 다른 접근법을 시도해 봤는데, 시퀀스 파일과 seq2sparse vectores를 생성하고 클러스터링을 시도했다. 하지만 그것은 나를 위해 작동하지 않았다. 방향에 대한 도움이나 조언은 큰 도움이 될 것입니다.
감사 & 감사합니다, 아툴
답장을 보내 주신 Artur에게 감사드립니다. 지난 2-3 주 동안이 문제를 해결하기 위해 노력 중이므로 입력이 힘들다는 것에 동의합니다. 이제는 모든 것이 손실되어서 여기에 게시되었습니다. 그러나 당신이나 누군가가이 문제에 접근하는 방법에 대한 제안이 있다면 고맙겠습니다. 문제를 해결할 수 있다면 몇 가지 사전 처리 단계를 추가 할 수 있습니다. 또한 데이터 마이닝을위한 학습자로서 새로운 것을 배우는 것이 항상 좋은 방법입니다. – user722856