2017-10-31 11 views
0

사용한 지불 방법 및 사용한 할인 유형과 같은 테스트 값으로 구성되는 열은 거의 없습니다. 아이디어를 얻기 위해 붙여 넣는 항목이 거의 없습니다. 이 열에 대한Python에서 클러스터 분석을 위해 Object 열을 숫자로 변환하는 방법은 무엇입니까?

Mode_of_payment   discount_used 
ICICI CREDIT CARD   FGShoppingFest 
Payback    FGShoppingFest,T24Club 
CASH    FGShoppingFest,BBProfitClub 
CASH    FGShoppingFest,Payback 
ICICI CREDIT CARD    FGShoppingFest 
CreditNote    FGShoppingFest 
CASH    FGShoppingFest,Payback 
CASH    FGShoppingFest,T24Club,Payback 
Cash Back    FGShoppingFest 
Cash Back    FGShoppingFest,T24Club,Payback 
Cash Back    FGShoppingFest,T24Club 
CASH    FGShoppingFest,Payback 

정보 - 사용하는 지불의 모드 및 할인에 열을 사용 무엇 - 단일 할인 또는 제품에 적용되는 여러 할인 혜택이있을 수 있습니다.

이 열에서 정보를 추출하여 클러스터링을 적용 할 수 있습니다. 숫자 데이터로 변환하는 방법?

답변

0

하지 마십시오. 데이터가 숫자가 아닌 경우 숫자 변수가 필요없는 접근 방식을 선택하십시오.

더미 변수를 사용하여 인코딩 할 수 있지만 k-means와 같은 대부분의 클러스터링 알고리즘은 연속 개의 변수가 필요합니다. 상징적 가치를 의미있는 연속 변수로 변환 할 수는 없습니다.

+0

하지만 숫자 열은 매우 적고 핀 코드, 매장 위치 ID, 제품 구매 ID입니다. 제품 가격 이외의 다른 기능은 없습니다. 숫자 변수가 많은 기여를하지 않을 것이므로 이러한 기능이 좋은 통찰력을 제공한다고 생각하지 않습니까? –

+0

그건 내가 말한 것이 아닙니다. 나는 당신이 가지고있는 데이터의 종류에 적합한 알고리즘을 선택하고, 데이터가 분명히 알고리즘이 아니라고 가정하지 말고 ... –

+0

하지만 작업은 클러스터링입니다. 해당 CSV 파일의 몇 행을 붙여 넣을 수 없습니다. –