2013-11-01 6 views
1

PCA가 작동하는 방식과 Matlab에서이를 구현하는 방법을 얻었지만 어떤 변수가 주요 구성 요소에 가장 크게 기여하는지 알아 내기는 어렵습니다.PCA의 주 구성 요소에 대한 대부분의 분산을 형성하기 위해 어떤 변수가 결합됩니까?

내 질문에, 변수 A, B, C, D, E, F의 데이터 세트가 있다고 가정합니다. 알 수없는, 변수 A, B, C, E는 거의 같은 것을 측정하고 변수 D, F는 다른 것을 측정합니다. 집합 (A, B, C, E)과 집합 (D, F)의 변수 간에는 거의 상관 관계가 없습니다.

PCA는 내가하는 방법을 알고있는 2 가지 주요 원칙 구성 요소가 있음을 알려줍니다. 나는 A, B, C, E 및 D, F가 그 그룹 내에서 동일한 것들을 측정하는 변수의 두 그룹이라는 것을 어떻게 식별 할 지 모른다. 이것에 대한 조언은 크게 감사하겠습니다.

답변

3

앞서 설명한 것처럼 행동하는 데이터 몇 개를 만듭니다. 비슷한 데이터를 측정하는 네 가지 변수와 다른 데이터를 측정하는 두 가지 요소를 만듭니다.

>> x = randn(100, 1); 
>> y = randn(100, 1); 
>> v = [[x,x,x,x] + 0.1*randn(100,4), [y,y] + 0.1*randn(100,2)]; 

지금, 우리는 처음 두 원칙 구성 요소가

>> latent 
latent = 
    5.4821 
    2.0491 
    0.0120 
    0.0106 
    0.0089 
    0.0073 

이제 지배적 인 것을 알 수 있습니다 변수 latent 살펴보면 pca

>> [coeff, scores, latent, tsq, explained] = pca(v); 

를 호출 주요 구성 요소를 찾을 수 처음 두 개의 행에있는 coeff (처음 두 요소에 대한 여섯 개의 변수 각각의로드가 포함되어 있음)을 보면 알 수 있습니다. 변수 1 ~ 4는 첫 번째 요소 (파란색)에 많이로드되고 변수 5-6은 두 번째 요소 (빨간색)에 많이로드됩니다. 그런데

>> bar(coeff(1:2, :)') 

enter image description here

+0

, 난 당신이 '말' '처음 두 개의 열이 아니라 처음 두 행 봐'뜻 생각합니다. 다시 한번 감사드립니다. – ndb