수집 한 데이터가있는 임의의 숲을 연구 중입니다. 분류기를 테스트하고 테스트 세트에서 약 89 %의 정확도를 얻었습니다. 그러나 데이터를 제로 평균 및 단위 분산으로 스케일링하면 정확도가 거의 50 % 떨어졌습니다. 나는 this 게시물을 보았는데 나는 최적의 성능을 얻기 위해 데이터를 스케일링 할 필요가 없다고 제안하는 것 같다.정규화로 인해 분류 자의 성능이 저하됩니다.
정확도가 크게 떨어질 수있는 이유는 무엇일까요?
편집 : 내 임의 숲 implemententation
에 대한 sklearn.ensemble
를 사용하고 여기에 link 데이터
이것은 데이터 기반입니다. 어딘가에서 데이터를 공유 할 수 있습니까? – greeness
@greeness 데이터 파일을 업로드했습니다. – Ajit