2017-12-06 13 views
0

상관 관계를 사용하고 기능 선택을 사용하여 중요/관련이 높은 변수를 선택하는 것의 차이점은 무엇입니까? 피처 선택을 연구 할 때 피어슨 상관 관계를 포함한 통계 테스트를 사용하는 것을 볼 수 있습니다.피쳐 변수에 대한 상관 관계 및 피쳐 선택 계산 간의 차이점은 무엇입니까?

대학 프로젝트의 일환으로 우리 그룹은 데이터 마이닝을 수행 할 때 중요한 변수를 식별하려고합니다. 파트너는 R Studio를 사용하여 상관 관계 분석을 수행했으며 Sci-Learn을 사용하여 재귀 적 기능 제거를 수행했습니다.

이렇게하면 재귀 적 기능 제거를 통해 상위 3 개의 가장 높은 상관 변수와 상위 3 개의 순위 변수 사이에 공통된 변수가있었습니다.

나는 오히려 이것에 오히려 새로운 어떤 도움도 크게 감사하겠습니다!

답변

0

가장 관련성이 높은 기능이 중복 된 것으로 의심 될 수 있습니다. 그러나이 기능이 성능에 어떻게 영향을 미치는지 말할 수는 없습니다. 상호 연관성은 유익하지만 다른 기능 선택 기술은 완전히 별개이므로이를 사용하는 것도 가치가 있습니다. 그런 다음 결과를 병합 할 수 있습니다 (예 : 상관 관계가 중복 된 항목인지 확인). 당신이 볼 수 있듯이, 트리 기반의 기능 선택은 트리 모델에 의해 바이어스 될 수

http://scikit-learn.org/stable/modules/feature_selection.html

하지만 많은 주어진 기능은 영향을 어떻게 답을 제공합니다

여기서 흥미로운 정보를 찾을 수 있습니다 결정. 이는 상관 관계와 완전히 다른 지표 일 수 있습니다.

+0

다시 연락해 주셔서 감사합니다. 우리는 중요한 변수를 식별하는 두 가지 다른 방법을 원했기 때문에 우리는 하나만 의존하지 않았습니다. RFE는 교차 검증 RFECV를 사용하는 래퍼 메소드를 지원합니다. 더 좋은 질문은 Sklearn과 함께 정규 RFE가 순위를 계산하는 방법 일 것입니다. 나는 코드를 작동시킬 수 있었고 순위를 찾았고, 나는 단지 어떻게/어떤 기준으로 순위를 부여 받았는지 더 잘 이해하기를 원합니다. – rmahesh