나는 180 개 요소의 특징 벡터를 가지고 있으며 그것에 PCA를 적용했습니다. 문제는 첫 번째 PC가 높은 분산을 가지지 만 pc1 대 pc2의이 biplot 다이어그램에 따르면이 값이 이상 값으로 인해 발생하는 것으로 보입니다. 어느 것이 이상한가. 첫 번째 주 구성 요소는 거의 모든 정보를 가지고 있지만 분류에 가장 적합한 지표는 아닙니다.
분명히 첫 번째 PC가 여기에서 분류하는 데 가장 좋은 지표는 아닙니다. 나는 이것에 대한 R을 사용하고
: 여기
은 PC3 대 PC2의 행렬도도이다. 어떤 제안이 왜 이런 일이 있으며 어떻게 해결할 수 있습니까? 특이 치를 제거해야합니까? 그렇다면 내가 데이터를 정상화 prcomp(features.df, center= TRUE, scale = TRUE)
을 사용하고 R.
--edit
하여이를 수행하는 가장 좋은 방법은 무엇입니까.
PCA는 이상치에 매우 민감합니다. 데이터를 전혀 확장하지 않았습니까? 나는 이상한 점을 들여다 보며 무엇이 계속되고 있는지 보게 될 것입니다. 그것은 당신의 데이터에 문제가 있음을 나타낼 수 있습니다. 특이 값없이 PCA를 재실행하고 어떻게 보이는지보실 수 있습니다. –
[0, 1] 간격으로 모든 기능 요소를 가져 오는 것을 의미하는 스케일링이라면 나는 그것을 수행했다. 사실이 경우에는 더욱 심각해진다. – Hamed
프로그래밍 문제가 아니라 통계적으로 문제가있는 것 같습니다. stats.stackexchange로 옮길 것을 권합니다. – Gregor