2

위치 기능이 있다고 가정 해 보겠습니다. 기차 데이터 세트에서 고유 한 값은 'NewYork', 'Chicago'입니다. 그러나 테스트 세트에는 'NewYork', 'Chicago', 'London'이 있습니다. 그래서 '런던'을 무시하는 방법을 하나의 핫 인코딩으로 만드는 중입니까? 즉, 테스트 세트에만 나타나는 범주를 인코딩하지 않으려면 어떻게해야합니까?python을 사용하여 테스트 데이터 세트에서 보이지 않는 범주 값을 처리하는 방법은 무엇입니까?

답변

0

이 질문을 기반으로 목록

train_data = ['NewYork', 'Chicago'] 
test_set = ['NewYork', 'Chicago', 'London'] 

로 가정하면

방법뿐만 아니라 테스트 세트에 표시되는 범주를 인코딩?

for each in test_set: 
    if filter(lambda element: each in element, train_data): 
     print each 

London 스킵 수단 NewYork & Chicago를 출력한다.