2016-09-21 6 views
1

R 및 기계 학습에 새로운 것이지만 많은 변수를 기반으로 고객 변동을 예측하는 프로젝트를 수행해야합니다. e.e. 서비스 기간, 발행 된 신용 노트 수, 가격 누적 횟수 등R 예측 및 예측 성향에 대한 예측 모델 이유 %

저는 rpart와 randomforest를 사용하고 있으며 각각에 대해 변동 예측을 사용하는 데이터 세트가 있습니다. 나는 신뢰 매트릭스를 만들고 어떤 것이 중요한 지표인지 알 수있다. 그러나 출력물의 목표는 처리 할 고객의 '위험에 노출 된'목록으로 Sales 팀에 보내는 것입니다.

위험에 따라 순위를 정할 수 있도록 신뢰/성향/liklihood %를 추가하는 것이 무엇보다 중요 할뿐만 아니라 각 고객에 대한 카테고리/요약/이유를 추가하는 방법이 있습니다. 왜 고객들이 가격 변동에 대해 높은 점수를 매기는지 예측했기 때문에 가격에주의를 기울여야합니다. 고객 배달 - 놓친 배달이 많음 - 서비스를 수정해야합니까?

많은 도움에 감사드립니다.

답변

0
  1. 변동 가능성을 예측하려면 물류 회귀 모델을 훈련시키고 모델을 사용하여 변동 가능성을 예측할 수 있습니다. 고객 이탈을 유발하는 중요한 예측 변수를 찾을 수도 있습니다 (http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf 참조). 중요한 예측 인자가 설명하는 분산을 찾기 위해 함께 anova를 사용할 수 있습니다.
  2. 특정 고객 변동이 발생한 이유를 찾으려면 의사 결정 트리 (CART/rpart) 모델을 익히고 의사 결정 트리에서 루트에서 고객이 속한 리프 노드까지의 경로를 따라야합니다 배웠다.
  3. 마지막으로 randomForest 앙상블 분류기를 사용하여 OOB 오류 추정치의 관점에서 변동에 대한 가장 중요한 예측 인자를 찾을 수 있습니다.
+0

THanks that that, that sense. 그러나 포인트 2는 매우 수동적 인 것처럼 들리 - 100k 고객이있는 경우 각 변수를 트리 아래로 추적해야합니까? 각 고객의 루트를 식별 할 수있는 방법이 있습니까? 감사 – user3103335