데이터 마이닝을 처음 사용했습니다. 저는 이사 이름을 포함하는 데이터 세트를 가지고 있습니다. Scikit이 견적서가 문제없이 사용할 수있는 것을 배울 수있는 올바른 방법은 무엇입니까?scikit에서 비공식적 인 데이터를 처리하는 방법, 파이썬 배우기?
인터넷에서 발견 한 것부터 sklearn.preprocessing.LabelEncoder가 올바른 선택이라고 생각했습니다.
데이터 마이닝을 처음 사용했습니다. 저는 이사 이름을 포함하는 데이터 세트를 가지고 있습니다. Scikit이 견적서가 문제없이 사용할 수있는 것을 배울 수있는 올바른 방법은 무엇입니까?scikit에서 비공식적 인 데이터를 처리하는 방법, 파이썬 배우기?
인터넷에서 발견 한 것부터 sklearn.preprocessing.LabelEncoder가 올바른 선택이라고 생각했습니다.
는 make_pipeline(LabelEncoder, OneHotEncoder)
또는 pd.get_dummies
가) 보통의 선택, 사용하고, 그리고 linear_model
또는 tree
중 하나에서 분류와 잘 작동 할 수 있습니다 모델의 유형 따라 달라집니다. LabelEncoder
자체는 또 다른 선택이지만 라벨에 자연스러운 주문 (교육 수준 등)이 없거나 개별 라벨을 분리 할 수있는 매우 깊은 나무를 사용하지 않는 한 제대로 작동하지 않습니다.
예, 저는 LabelEncoder가 올바른 선택이라고 생각합니다. 다음은 Scikit-Learn 문서의 예제입니다.
le = preprocessing.LabelEncoder()
le.fit(["paris", "paris", "tokyo", "amsterdam"])
list(le.classes_) # ['amsterdam', 'paris', 'tokyo']
le.transform(["tokyo", "tokyo", "paris"]) # array([2, 2, 1]...)
list(le.inverse_transform([2, 2, 1])) # ['tokyo', 'tokyo', 'paris']
"디렉터의 이름"을 정수로 변환 할 예정이므로 이름에 순서가 지정되어 있지 않습니다 (OneHotEncoder를 사용해야합니까?). –
예, 정확합니다. 조금 더 자세하게 답을 편집했습니다. – maxymoo