거대한 문자열 목록의 텍스트 마이닝

문자열 목록이 있습니다. (각 GB 당 4-5 개의 큰 파일에 흩어져있는 ID 및 문자열의 꽤 큰 목록). 이러한 문자열은 다음과 같이 지정됩니다 :거대한 문자열 목록의 텍스트 마이닝

1, 안녕하세요

2, 안녕 U 어떻게 r에?

2, 어떻게 되나요?

3 (여기서,

3, 이것은 무엇을 의미 하는가가

가 지금은 이러한 문자열에 대한 텍스트 마이닝을 수행 할 나는 다음과 같은 방법으로 문자열을 표시하고자하는 dendrogram은 준비하려면 무엇을 의미하는지

1-hi

2-Hi 어떻게?

----How r u?

3 - 이것은 무엇을 의미합니까?

----what it means?

3 - 어디 있니?

이 출력은 id (특정 문자열을 사용한 사람의 ID라고 가정) 다음에 오는 쉼표 뒤에 오는 문자열의 유사성을 기반으로합니다. 다른 사람이 같은 단어를 사용했다면 사용했던 문자열에 따라 그룹화해야합니다.

이제는 간단한 작업 인 것 같습니다. 그러나 나는 hadoop/Mahout이나 클러스터 된 리눅스 머신에서 엄청난 양의 데이터를 지원할 수있는 무언가를 원한다. 또한 해결책에 대해이 문제에 어떻게 접근해야합니까? 나는 이미 Mahout에서 다른 접근법을 시도해 봤는데, 시퀀스 파일과 seq2sparse vectores를 생성하고 클러스터링을 시도했다. 하지만 그것은 나를 위해 작동하지 않았다. 방향에 대한 도움이나 조언은 큰 도움이 될 것입니다.

감사 & 감사합니다, 아툴

출처

2011-09-04 user722856

나는 당신이 정말로 필요한 계층 적 클러스터링라고 생각합니다. Mahout에 대해 one implementation이 제안되었으며, 하나는 Shogun Toolbox (대규모 계산 용으로도 사용됨)에 구현되었습니다. 그러나 입력이 어려울 것으로 보이기 때문에 작동한다는 것을 보장하기는 어렵습니다.

출처

2011-09-04 23:01:59

답장을 보내 주신 Artur에게 감사드립니다. 지난 2-3 주 동안이 문제를 해결하기 위해 노력 중이므로 입력이 힘들다는 것에 동의합니다. 이제는 모든 것이 손실되어서 여기에 게시되었습니다. 그러나 당신이나 누군가가이 문제에 접근하는 방법에 대한 제안이 있다면 고맙겠습니다. 문제를 해결할 수 있다면 몇 가지 사전 처리 단계를 추가 할 수 있습니다. 또한 데이터 마이닝을위한 학습자로서 새로운 것을 배우는 것이 항상 좋은 방법입니다. – user722856

거대한 문자열 목록의 텍스트 마이닝

답변

관련 문제