0

라이브 스트림에서 트위터 트윗에 대한 주제 모델링을해야하며, 입력은 스트리밍을 시작하고 HDFS에 데이터를 저장합니다. 배치 작업은 수집 된 데이터에서 실행됩니다. 배치 작업은 트윗의 기본 주제를 찾는 것입니다. 이를 위해 LDA (Latent Dirichlet Allocation) 알고리즘을 사용하여 주제를 찾습니다. 데이터는 최대 140 자의 트윗으로 수신되며 HDFS에 하나의 행으로 저장됩니다. 화제의 모델이트위터 데이터에 LDA에 대한 문서를 작성하는 방법

내가 입력에 LDA에 데이터를 두 가지 옵션을 이해 n 개의 문서에서 단어의 공동 발생에 기초하여 유도 될 때

가 나는 LDA 알고리즘에 새로 온 사람과 그에 대한 기본적인 이해를 가지고있다.

옵션 1 : LDA 용 단일 문서로 하나의 행 트윗을 사용 하시겠습니까?

옵션 2 : 행 및 양식 문서를 그룹화하여이 문서를 LDA에 전달 하시겠습니까?

각 옵션에 대해 어휘 (단어)가 주제에 어떻게 분포되어 있는지 이해하고 싶습니다. 더 나은 주제 모델링을 위해 고려해야 할 옵션은 무엇입니까?

또한이 솔루션 이외의 트위터 데이터를 토픽 모델링하는 데 더 좋은 솔루션이 필요한지 알려주십시오.

참고 : 두 옵션을 모두 실행하고 클라우드에 표시 할 때 주제 (3)에 대한 단어 배포가 두 언어에서 모두 다르다는 것을 알 수있었습니다.

도움을 주시면 감사하겠습니다.

미리 감사드립니다.

답변

2

LDA가 짧은 문서와 함께 사용하는 것은 약간의 까다로운 작업입니다. LDA는 각 문서에 대해 한 단어 당 주제와 여러 주제를 할당하기 때문입니다. 짧은 텍스트로 작성하면 거의 동일한 단어에 속하지 않지만 대부분 짹짹에는 단 하나의 항목 만 포함되어 가비지 항목 배포를 생성합니다. (선택 사항 1)

짧은 텍스트 용 주제 모델링을위한 paper 및 java 도구가 있다는 것을 알고 있지만 사용 해 본 적이 없습니다. 여기에 github repo link

옵션 2의 경우 LDA를 사용하고 일관된 주제를 얻을 수 있지만 소스, 날짜, 키워드, 해시 태그 등의 그룹화를위한 의미 구조를 찾아야한다고 생각합니다.

제안 된 옵션을 곧 적용하면 결과에 크게 흥미가있을 것입니다.