KMeans 클러스터링 알고리즘을 사용하여 프로필 데이터를 분석하고 싶습니다. 샘플 데이터 형식은 다음과 같습니다.클러스터링 알고리즘 (Kmeans & EM)의 기능 확장 (정규화)
Features: name ISBN Date ID price ....
'A' '31NDB' '05/18/2014' 'CBDDN' 12.00
'B' '3241B' '08/19/2012/ 'ABCDE' 33.08
이러한 내용은 실제 예일 뿐이지 만 실제 데이터는 반드시이 형식이 아닙니다. 그러나이 데이터 집합에 대해 클러스터링 알고리즘을 적용해야한다면, 어떻게 일차 스케일링을 할 수 있습니까? 문자열 값과 날짜 값 및 가격 (double) 값은 어떻게 처리해야합니까? 이 값들 사이에 관계가 있습니까? 나는 혼란 스럽다 ...
어떤 생각?
그렇다면 도구는 무엇입니까? 숫자가 아닌 데이터의 경우? 비슷한 책을 그룹으로 묶고 싶다고합시다. 또는 서버 로그 파일을 분석 중이라고 가정 해보십시오. – JudyJiang
예 : 주제 모델링은 단어의 존재 여부에 따라 겹쳐진 기능으로 희소 한 텍스트 데이터로 작업하기위한 것입니다. –