-1

최근에 저는 문장 분류 문제에 대해 연구하고 있습니다.이 문장은 제품 및 고객에 대한 리뷰의 한두 가지 리뷰에 불과하며 제품이 제공해야하는 다양한 기능에 대한 의견을 게시합니다. 전처리 (스톱어 제거 및 형태소 분석) 후, 필자가 문장을 분류하지 않고 출력 할 수 있도록 특징 추출 라이브러리 (예 : word2vec, tf-idf) 및 클러스터링 알고리즘 (k- 평균)을 사용합니다. . 그러나 클러스터링 알고리즘에 대한 더 많은 옵션을 찾고 있는데, 구체적으로 출력 품질을 향상시키기 위해 LDA를 시험해보고 싶었지만 this 문단 분류에서는 LDA에 대한 몇 가지 사실을 나열했습니다.LDA 모델은 문장 (문서가 아님) 클러스터링/분류에 유용 할 수 있습니까?

내 질문은 - 문서 (문서가 아닌) 분류에 LDA를 사용하면 도움이 될까요? 또한 K- 의미와는 별도로, 문장 구분과 함께 잘 작동 할 수있는 감독되지 않는 학습을하는 다른 대안은 무엇입니까? 모든 제안에 대해 미리 감사드립니다.

참고 : 필자는 spark 1.6.1 환경에서 pyspark API로 연습을하고 있습니다.

1 주제 비슷한 나왔다 : 주제 각각에 대해 자주 말씀이 많이 중복 주제와 단어의 거의 같은 집합을 공유

혼자 LDA을 시도하면, 아래에 출력됩니다.

enter image description here 나의 이해의

하나

내 리뷰는 특정 도메인에 속합니다. 예를 들어 내 제품은이 단일 도메인을 중심으로 모든 리뷰가 신용 카드 도메인 &에 속합니다. 더구나, 나는 낱말 분포를 음모를 세우는 것을 시도하고 가장 빈번한 사용 낱말이 전체 인구의 다만 약 2 %다는 것을 것을이 발견했다.

+0

작성자없는 문서가 귀하의 문제와 어떤 관련이 있는지 나는 알 수 없습니다. 이는 단어 수준 모델이 아닌보다 거친 문장 수준을 수행함으로써 LDA를 가속화하기위한 것입니다. 왜 그냥 LDA를 사용해 보시지 않으시겠습니까? –

+0

네, 직접 해보겠습니다. spark 1.6.1 (http://spark.apache.org/docs/1.6.1/ml-clustering.html#latent-dirichlet-allocation-lda)의 엔터프라이즈 버전은 LDA 용 Python 기본 API를 지원하지 않지만 spark 2.0에 있습니다 (http://spark.apache.org/docs/2.0.1/ml-clustering.html#latent-dirichlet-allocation-lda). 인프라 팀과의 엔터프라이즈 업그레이드는 시간이 조금 걸립니다. 한편 나는 누군가가 이전의 지식을 가지고 있고 그것에 경험을 공유 할 수 있는지보기 위해 노력하고있다. 저는 산출물을 평가하기 위해 노력하고 있습니다. 제 개인적인 학습 내용을 공유 할 것입니다. – user2763088

+0

스파크없이 시도하십시오. 작동 원리를 모를 때 확장 할 필요가 없습니다. Spark는 좋은 C 구현보다 속도가 느린 경우가 많습니다.이를 참조로 사용할 수는 없습니다. 또한 기능면에서 매우 제한적이므로 Spark에서는 작동하지 않을 수 있지만 더 나은 도구에서 작동합니다. –

답변

1

예. LDA 일 수 있지만 (항상 일 필요는 없습니다) 문장에서도 작동합니다.

긴 문서에서는 더 잘 작동하는 경향이 있습니다. 하지만 당신의 문장은 짹짹보다 길기 때문에 좋습니다.

+0

Alright. 귀하의 의견에 감사드립니다. LDA를 리뷰 진술에 적용하고 결과를 평가 해 보도록하겠습니다. 곧 알려 드리겠습니다. – user2763088

+0

내 데이터에서 LDA를 사용해 본 후 댓글이 업데이트되었습니다. – user2763088