2009-11-22 8 views
3

R에서 주성분 분석을하려고합니다. 그것을하는 2 가지의 방법이있다, 나는 믿는다. 다른 하나는 주성분 분석을 바로하고 있습니다. 다른 방법은 s = scale (m)을 사용하여 먼저 행렬을 표준화 한 다음 주성분 분석을 적용하는 것입니다.
어떤 결과가 더 좋은지 어떻게 알 수 있습니까? 무엇을 특히 봐야 가치. 나는 이미 고유 값과 고유 벡터, 두 방법 모두를 사용하는 각 고유 벡터에 대한 분산의 비율을 발견 할 수있었습니다.R에서 주성분 분석을 할 때 먼저 데이터 매트릭스를 표준화하는 것이 더 나은지 어떻게 알 수 있습니까?

표준화되지 않은 첫 번째 pca의 분산 비율이 더 큰 값을 나타냈다. 그것에 의미가 있습니까? 이 항상 그렇지 않은가?

마침내 변수를 예측해야한다면, 즉 주 구성 요소 분석을 할 때 데이터 매트릭스의 변수를 드롭해야합니까?

+0

나는 '더 나은'이 무엇을 의미하는지에 달려 있다고 생각한다. 냉소적이거나 ​​외면하지 않는다. 지적하고있는 것은 명백한 것까지는 쉬운 대답이 있는지 모른다. (hadley eludes) –

답변

3

변수가 공통 스케일로 측정 되었습니까? 그렇다면 확장하지 마십시오. 그렇다면 확장하는 것이 좋습니다.

다른 변수의 값을 예측하려는 경우 PCA가 올바른 도구가 아닐 수 있습니다. 어쩌면 회귀 모델을보아야 할 것입니다.

+0

하지만 내 변수가 공통 척도로 측정되는지 어떻게 알 수 있습니까? – justR