2014-10-19 1 views
0

수집 한 데이터가있는 임의의 숲을 연구 중입니다. 분류기를 테스트하고 테스트 세트에서 약 89 %의 정확도를 얻었습니다. 그러나 데이터를 제로 평균 및 단위 분산으로 스케일링하면 정확도가 거의 50 % 떨어졌습니다. 나는 this 게시물을 보았는데 나는 최적의 성능을 얻기 위해 데이터를 스케일링 할 필요가 없다고 제안하는 것 같다.정규화로 인해 분류 자의 성능이 저하됩니다.

정확도가 크게 떨어질 수있는 이유는 무엇일까요?

편집 : 내 임의 숲 implemententation

에 대한 sklearn.ensemble를 사용하고 여기에 link 데이터

무작위로 숲 전적으로 기능은 오류에 따라 기능 입력의 어떤 변화에 대해 불변 여부
+0

이것은 데이터 기반입니다. 어딘가에서 데이터를 공유 할 수 있습니까? – greeness

+0

@greeness 데이터 파일을 업로드했습니다. – Ajit

답변

0

에 있습니다. 간단히 말해서, 기능이 이동 및 크기 조정시 불변 인 경우 모델도 마찬가지입니다.

간략히 살펴본 후 here 도움말 페이지를 살펴본 후 사용 된 표준 기능은 일탈 성 손실로 보입니다. 이 funcional은 입력 특징을 스케일링 할 때 불변하지 않습니다. 이는 사용자의 관찰을 설명합니다.

+0

데이터에 뭔가가 있다고 생각합니다. 나는 또한 이상하게도 스케일링되지 않은 데이터로 더 나은 분류를 제공하는 지원 벡터 머신을 시도했다. – Ajit