2016-12-20 8 views
1

여러분이 제가 이것이 위와 같다고 느낄 때 이것을 해결할 수 있기를 바랍니다. 당신 중 일부는 어리석은 짓 일지 모르지만 나는 길을 잃었고 조언을 구하러 간다.Python : 많은 변수가 포함 된 월별 데이터에 대한 클러스터 분석

저는 통계, 데이터 분석 및 빅 데이터를 처음 사용합니다. 방금 공부를 시작 했으므로 이탈 예측에 대한 프로젝트를 만들어야합니다. 예, 이것은 일종의 숙제입니다.하지만 제 질문에 답할 수 있기를 바랍니다.

초급 단계의 답을 단계별로 알려 주시면 고맙겠습니다.

기본적으로 3 개월 동안 휴대 전화 회사의 고객 활동 데이터에 매우 큰 데이터 세트가 있습니다 (분명히), 4 개월이 끝났거나 그렇지 않은 채로 끝납니다. 매월 다음 열이 있습니다.

['year', 
'month', 
'user_account_id', 
'user_lifetime', 
'user_intake', 
'user_no_outgoing_activity_in_days', 
'user_account_balance_last', 
'user_spendings', 
'user_has_outgoing_calls', 
'user_has_outgoing_sms', 
'user_use_gprs', 
'user_does_reload', 
'reloads_inactive_days', 
'reloads_count', 
'reloads_sum', 
'calls_outgoing_count', 
'calls_outgoing_spendings', 
'calls_outgoing_duration', 
'calls_outgoing_spendings_max', 
'calls_outgoing_duration_max', 
'calls_outgoing_inactive_days', 
'calls_outgoing_to_onnet_count', 
'calls_outgoing_to_onnet_spendings', 
'calls_outgoing_to_onnet_duration', 
'calls_outgoing_to_onnet_inactive_days', 
'calls_outgoing_to_offnet_count', 
'calls_outgoing_to_offnet_spendings', 
'calls_outgoing_to_offnet_duration', 
'calls_outgoing_to_offnet_inactive_days', 
'calls_outgoing_to_abroad_count', 
'calls_outgoing_to_abroad_spendings', 
'calls_outgoing_to_abroad_duration', 
'calls_outgoing_to_abroad_inactive_days', 
'sms_outgoing_count', 
'sms_outgoing_spendings', 
'sms_outgoing_spendings_max', 
'sms_outgoing_inactive_days', 
'sms_outgoing_to_onnet_count', 
'sms_outgoing_to_onnet_spendings', 
'sms_outgoing_to_onnet_inactive_days', 
'sms_outgoing_to_offnet_count', 
'sms_outgoing_to_offnet_spendings', 
'sms_outgoing_to_offnet_inactive_days', 
'sms_outgoing_to_abroad_count', 
'sms_outgoing_to_abroad_spendings', 
'sms_outgoing_to_abroad_inactive_days', 
'sms_incoming_count', 
'sms_incoming_spendings', 
'sms_incoming_from_abroad_count', 
'sms_incoming_from_abroad_spendings', 
'gprs_session_count', 
'gprs_usage', 
'gprs_spendings', 
'gprs_inactive_days', 
'last_100_reloads_count', 
'last_100_reloads_sum', 
'last_100_calls_outgoing_duration', 
'last_100_calls_outgoing_to_onnet_duration', 
'last_100_calls_outgoing_to_offnet_duration', 
'last_100_calls_outgoing_to_abroad_duration', 
'last_100_sms_outgoing_count', 
'last_100_sms_outgoing_to_onnet_count', 
'last_100_sms_outgoing_to_offnet_count', 
'last_100_sms_outgoing_to_abroad_count', 
'last_100_gprs_usage'] 

이 숙제의 최종 결과는 k- 평균 클러스터 분석 및 변동 예측 모델입니다. 이 데이터 집합에 대한

나의 가장 큰 두통은 다음과 같습니다

어떻게 이러한 변수의 대부분을 포함하여 월별 데이터에 대한 클러스터 분석을 만들기 위해? 예제를 찾으려고했지만 한 달에 하나의 변수를 분석하거나 한 달에 여러 변수를 분석하는 예제를 발견했습니다.

저는 파이썬과 스파크를 사용하고 있습니다.

나는 월과 변수의 거대한 목록과 함께해야 할 일을 알면 오래도록 사용할 수 있다고 생각합니다.

감사합니다. 도움을 주시면 대단히 감사하겠습니다.

P. 코드 예제가 너무 많아서 물어 보지 않겠습니까?

+1

나는 NumPy, Panda와 같은 라이브러리를 사용해보아야한다고 생각합니다. 그것을 읽고 도움이되는지 확인하십시오. 또한 k는 유클리드 거리 또는 맨하탄을 사용할 수 있음을 의미하며 n 차원을 지원합니다. 알고리즘을 읽고 도움이되는지 확인하십시오. – lU5er

답변

1

여기 왜 k- 수단을 쓰겠습니까?

  1. k-means는 이러한 데이터에서 의미있는 것을 수행하지 않습니다. 크기 조정 및 속성 유형 (예 : 연도, 월)에 너무 민감합니다.

  2. 괴상한 예측은 감독 된 문제입니다. 감독 문제에 대해 감독되지 않은 알고리즘을 절대로 사용하지 마십시오. 즉, 검색을 안내해야하는 가장 중요한 정보 하나를 무시하고 있음을 의미합니다.

+0

글쎄, 처음에는 다른 모델도 잘 작동한다고 생각했지만 프로젝트 요구 사항에서 나온 것입니다. 그러나 귀하의 의견에 감사 드리며, 더 깊이 파고들 것입니다. – Deramite

+0

아마도 프로젝트 요구 사항을 수정해야 할 것입니다 ... –