0

PCA는 데이터 크기를 줄이는 데 도움이되는 차원 감소 알고리즘입니다. PCA는 PC1, PC2, PC3 등과 같은 고유 벡터의 출력을 내림차순으로 제공한다는 것을 이해하지 못했습니다. 따라서 이것이 우리의 데이터를위한 새로운 축이 될 것입니다.PCA의 산출물과 그 유용성은 무엇입니까?

  • 여기서 테스트 세트 데이터를 예측하기 위해이 새 축을 적용 할 수 있습니까?

  • 우리는 n에서 일부 n-k까지 차원 감소를 달성했습니다.

  • 데이터에서 가장 유용한 변수를 얻고 데이터에서 중요하지 않은 열을 제거하는 방법은 무엇입니까?
  • PCA에 대한 다른 방법이 있습니까?

답변

1

PCA의 아이디어는 가장 큰 분산을 갖는 n-k 고유 벡터로 생성 된 부분 공간으로 치수를 축소하여 새로운 부분 공간에 매핑 된 데이터에서 가장 큰 분산을 발생시키는 것입니다.

또한 교육 데이터의 클래스를 모르는 상태에서 PCA를 사용하여 차원을 축소 할 수 있습니다. 즉, 감독되지 않습니다.

교육 데이터의 클래스를 알고있는 경우 LDA를 사용하여 클래스 변형 간 최대화 기능 공간을 찾으려는 것입니다.

희망이 있습니다.

+0

@Mathias는 질문하지 않습니다. 나의 실제적인 의심은 10 가지 특징의 데이터를 가져와 3 차원으로 축소 시킨다고 가정합니다. 따라서 새로운 차원은 실제 데이터와 완전히 다릅니다. PCA에서 어떤 기능이 가장 중요한지 알 수 있습니까? – FunnyCoder

+0

PCA는 감독되지 않은 방법이므로 분류 할 때 어떤 기능이 좋을지 고려하지 않습니다. 치수 감소는 피쳐 공간에서 가장 큰 차이를 기반으로합니다. 따라서 어떤 기능이 가장 큰 차이가 있는지 알 수 있습니다. 어떤 기능이 분류에 적합한 지 알지 못하지만 어떤 기능이 가장 많이 분산되어 있는지 알 수 있습니다. – Mathias

+0

표준 편차를 사용하여 기본 공식으로부터 대부분의 차이가있는 특성을 찾을 수 있습니다. 나는 PCA의 정확한 목적이 무엇인지 궁금 해서요? 2 차원 평면에서 100 차원 플롯을 시각화하는 것입니까? – FunnyCoder