2017-10-25 18 views
0

문서와 관련된 숨겨진 주제가있을 수 있습니다. 각 문서는 하나 이상의 주제와 관련이있을 수 있습니다. 이 주제에 대한 가능한 모든 "주제"/ 범주 및 설명에 대한 마스터 파일이 있습니다. 각 문서의 주제를 예측하는 모델을 만들려고합니다.sLDA 연속 R 대신에 범주 형 응답을 예측합니다.

RTextTools를 사용하여 감독 텍스트 분류를 잠재적으로 사용할 수는 있지만 이는 한 범주 또는 다른 범주에 속하는 문서를 분류하는 데 도움이됩니다. 나는 문서의 주제 비율을 결정하는 데 도움이 될뿐만 아니라 용어 - 주제/카테고리 분포를 제공하는 해결책을 찾고자합니다. 012LM은 sLDA가 적합하다고 생각하지만, 범주 형이 아닌 지속적인 변수 결과 만 예측할 수 있습니다.

+0

더 많은 방법론 대 프로그래밍 질문의 크로스 Validated에 이것을 게시하는 것이 좋습니다. – jruf003

답변

0

LDA는 클래스를 예측하는 분류 방법입니다. 다른 방법은 다국적 로지스틱 회귀가 될 수 있습니다. LDA는 다국적 제품에 비해 훈련하기가 어려울 수 있습니다.

업데이트 : LDA는 로지스틱 회귀와 달리 로짓 링크를 사용하여 Pr (Y = k | X = x)를 직접 예측하는 분류 방법입니다. LDA는 Bayes 정리를 사용하여 예측합니다. 일반적으로 다중 클래스 문제에 대한 로지스틱 회귀 분석 (및 다단계 예측을위한 확장, 즉 다국적 로지스틱 회귀 분석)과 비교할 때 더 일반적입니다. LDA는 관측치가 각 클래스의 공통 공분산 행렬을 사용하는 가우스 분포로부터 유도되므로이 가정이 대략적으로 유지 될 때 로지스틱 회귀에 대한 몇 가지 개선 사항을 제공 할 수 있다고 가정합니다. 반대로 이러한 가우스 가정이 성립되지 않는다면 로지스틱 회귀는 LDA보다 우수 할 수있다. 요약하면, 선형 분류 모델의 개발에 모두 적합한 반면, 선형 판별 분석은 로지스틱 회귀와 대비되는 기본 데이터에 대해 더 많은 가정을합니다. 이러한 가정이 유지되지 않을 경우 로지스틱 회귀를보다 유연하고 강력한 방법으로 만듭니다. 그래서 제가 의미했던 바는 데이터를 잘 이해하고 데이터를 더 잘 나타낼 수 있는지 파악하는 것이 중요합니다. 읽기에 좋은 자료가 있으며 분류 방법의 비교와 비교가 가능합니다 : http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Seventh%20Printing.pdf 나는 분류 학습 장에 대한 통계 학습 개론을 제안합니다. 희망이 도움이

+0

내가 이해할 수 있는지 잘 모르겠다. 친절하게 설명해 주시겠습니까? – MiscRas