2016-10-18 11 views
0

나는 180 개 요소의 특징 벡터를 가지고 있으며 그것에 PCA를 적용했습니다. 문제는 첫 번째 PC가 높은 분산을 가지지 만 pc1 대 pc2의이 biplot 다이어그램에 따르면이 값이 이상 값으로 인해 발생하는 것으로 보입니다. 어느 것이 이상한가. pc1 vs pc2첫 번째 주 구성 요소는 거의 모든 정보를 가지고 있지만 분류에 가장 적합한 지표는 아닙니다.

분명히 첫 번째 PC가 여기에서 분류하는 데 가장 좋은 지표는 아닙니다. 나는 이것에 대한 R을 사용하고 pc2 vs pc3

: 여기

은 PC3 대 PC2의 행렬도도이다. 어떤 제안이 왜 이런 일이 있으며 어떻게 해결할 수 있습니까? 특이 치를 제거해야합니까? 그렇다면 내가 데이터를 정상화 prcomp(features.df, center= TRUE, scale = TRUE)을 사용하고 R.

--edit

하여이를 수행하는 가장 좋은 방법은 무엇입니까.

+1

PCA는 이상치에 매우 민감합니다. 데이터를 전혀 확장하지 않았습니까? 나는 이상한 점을 들여다 보며 무엇이 계속되고 있는지 보게 될 것입니다. 그것은 당신의 데이터에 문제가 있음을 나타낼 수 있습니다. 특이 값없이 PCA를 재실행하고 어떻게 보이는지보실 수 있습니다. –

+0

[0, 1] 간격으로 모든 기능 요소를 가져 오는 것을 의미하는 스케일링이라면 나는 그것을 수행했다. 사실이 경우에는 더욱 심각해진다. – Hamed

+0

프로그래밍 문제가 아니라 통계적으로 문제가있는 것 같습니다. stats.stackexchange로 옮길 것을 권합니다. – Gregor

답변

0

귀하의 목표가 일명 "차별"인 경우 PCA는 완전히 무의미 할 수 있습니다 (통계적 맥락에서 완전히 "정치화 된"용어는 드문 경우 임)). "그래서"그들은 "crimcoords"를 발명했지만 "prin.coords"와 관련이 있습니다. 후자는 '주요 좌표'에 대한 속어 인 통계입니다 (주요 구성 요소와 관련 있음). "Crimcoords"는 더 이상 웹에서 쉽게 찾을 수없는 것처럼 보입니다. 지난 세기에 모든 훌륭한 통계학 자들은 + - 그들이 무엇인지 알고있었습니다. 좋은 참고 문헌은 Gnanadesikan의 단편 "다 변수 관찰의 통계 자료 분석 방법"(제 1 판 1977, 2nd ed 1997, Wiley)에서 찾아 볼 수 있습니다.

Ram Gnanadesikan은 이미 이상 치 문제에 대해 매우 잘 알고 있었기 때문에 "견고한"방법을 언급했습니다. 요즘

는 강력한 다변량 통계에 대한 "표준"R 패키지 'rrcov는'... 화제의 현대 버전 (발렌틴 토도로프에 의해)와 함께 패키지 'rrlda'이다 (I는 "올가미"유형의 정규화가 가능하게 생각)입니다 주요 기능 rrlda() 실제로 로버 스트와 올가미 (L1) 벌칙을 허용합니다.