여러분이 제가 이것이 위와 같다고 느낄 때 이것을 해결할 수 있기를 바랍니다. 당신 중 일부는 어리석은 짓 일지 모르지만 나는 길을 잃었고 조언을 구하러 간다.Python : 많은 변수가 포함 된 월별 데이터에 대한 클러스터 분석
저는 통계, 데이터 분석 및 빅 데이터를 처음 사용합니다. 방금 공부를 시작 했으므로 이탈 예측에 대한 프로젝트를 만들어야합니다. 예, 이것은 일종의 숙제입니다.하지만 제 질문에 답할 수 있기를 바랍니다.
초급 단계의 답을 단계별로 알려 주시면 고맙겠습니다.
기본적으로 3 개월 동안 휴대 전화 회사의 고객 활동 데이터에 매우 큰 데이터 세트가 있습니다 (분명히), 4 개월이 끝났거나 그렇지 않은 채로 끝납니다. 매월 다음 열이 있습니다.
['year',
'month',
'user_account_id',
'user_lifetime',
'user_intake',
'user_no_outgoing_activity_in_days',
'user_account_balance_last',
'user_spendings',
'user_has_outgoing_calls',
'user_has_outgoing_sms',
'user_use_gprs',
'user_does_reload',
'reloads_inactive_days',
'reloads_count',
'reloads_sum',
'calls_outgoing_count',
'calls_outgoing_spendings',
'calls_outgoing_duration',
'calls_outgoing_spendings_max',
'calls_outgoing_duration_max',
'calls_outgoing_inactive_days',
'calls_outgoing_to_onnet_count',
'calls_outgoing_to_onnet_spendings',
'calls_outgoing_to_onnet_duration',
'calls_outgoing_to_onnet_inactive_days',
'calls_outgoing_to_offnet_count',
'calls_outgoing_to_offnet_spendings',
'calls_outgoing_to_offnet_duration',
'calls_outgoing_to_offnet_inactive_days',
'calls_outgoing_to_abroad_count',
'calls_outgoing_to_abroad_spendings',
'calls_outgoing_to_abroad_duration',
'calls_outgoing_to_abroad_inactive_days',
'sms_outgoing_count',
'sms_outgoing_spendings',
'sms_outgoing_spendings_max',
'sms_outgoing_inactive_days',
'sms_outgoing_to_onnet_count',
'sms_outgoing_to_onnet_spendings',
'sms_outgoing_to_onnet_inactive_days',
'sms_outgoing_to_offnet_count',
'sms_outgoing_to_offnet_spendings',
'sms_outgoing_to_offnet_inactive_days',
'sms_outgoing_to_abroad_count',
'sms_outgoing_to_abroad_spendings',
'sms_outgoing_to_abroad_inactive_days',
'sms_incoming_count',
'sms_incoming_spendings',
'sms_incoming_from_abroad_count',
'sms_incoming_from_abroad_spendings',
'gprs_session_count',
'gprs_usage',
'gprs_spendings',
'gprs_inactive_days',
'last_100_reloads_count',
'last_100_reloads_sum',
'last_100_calls_outgoing_duration',
'last_100_calls_outgoing_to_onnet_duration',
'last_100_calls_outgoing_to_offnet_duration',
'last_100_calls_outgoing_to_abroad_duration',
'last_100_sms_outgoing_count',
'last_100_sms_outgoing_to_onnet_count',
'last_100_sms_outgoing_to_offnet_count',
'last_100_sms_outgoing_to_abroad_count',
'last_100_gprs_usage']
이 숙제의 최종 결과는 k- 평균 클러스터 분석 및 변동 예측 모델입니다. 이 데이터 집합에 대한
나의 가장 큰 두통은 다음과 같습니다
어떻게 이러한 변수의 대부분을 포함하여 월별 데이터에 대한 클러스터 분석을 만들기 위해? 예제를 찾으려고했지만 한 달에 하나의 변수를 분석하거나 한 달에 여러 변수를 분석하는 예제를 발견했습니다.
저는 파이썬과 스파크를 사용하고 있습니다.
나는 월과 변수의 거대한 목록과 함께해야 할 일을 알면 오래도록 사용할 수 있다고 생각합니다.
감사합니다. 도움을 주시면 대단히 감사하겠습니다.
P. 코드 예제가 너무 많아서 물어 보지 않겠습니까?
나는 NumPy, Panda와 같은 라이브러리를 사용해보아야한다고 생각합니다. 그것을 읽고 도움이되는지 확인하십시오. 또한 k는 유클리드 거리 또는 맨하탄을 사용할 수 있음을 의미하며 n 차원을 지원합니다. 알고리즘을 읽고 도움이되는지 확인하십시오. – lU5er