2016-10-28 4 views

답변

1

make_pipeline(LabelEncoder, OneHotEncoder) 또는 pd.get_dummies가) 보통의 선택, 사용하고, 그리고 linear_model 또는 tree 중 하나에서 분류와 잘 작동 할 수 있습니다 모델의 유형 따라 달라집니다. LabelEncoder 자체는 또 다른 선택이지만 라벨에 자연스러운 주문 (교육 수준 등)이 없거나 개별 라벨을 분리 할 수있는 매우 깊은 나무를 사용하지 않는 한 제대로 작동하지 않습니다.

+0

"디렉터의 이름"을 정수로 변환 할 예정이므로 이름에 순서가 지정되어 있지 않습니다 (OneHotEncoder를 사용해야합니까?). –

+0

예, 정확합니다. 조금 더 자세하게 답을 편집했습니다. – maxymoo

1

예, 저는 LabelEncoder가 올바른 선택이라고 생각합니다. 다음은 Scikit-Learn 문서의 예제입니다.

le = preprocessing.LabelEncoder() 
le.fit(["paris", "paris", "tokyo", "amsterdam"]) 
list(le.classes_) # ['amsterdam', 'paris', 'tokyo'] 
le.transform(["tokyo", "tokyo", "paris"]) # array([2, 2, 1]...) 
list(le.inverse_transform([2, 2, 1])) # ['tokyo', 'tokyo', 'paris']