2013-01-13 3 views
1

Scikit-learn Extremely Randomized Trees 알고리즘을 사용하여 상대 기능 가져 오기에 대한 정보를 얻었으며 "중복 기능"의 순위 결정 방법에 대한 질문이 있습니다.극도의 무작위 화 트리 및 기능 중복을 기반으로하는 기능의 중요성

동일한 (중복) 분류에 중요한 두 가지 기능이있는 경우 극도로 무작위화된 트리는 기능의 중복을 감지 할 수 없습니다. 즉, 두 기능 모두 높은 순위를 얻습니다. 두 가지 기능이 실제로 중복된다는 것을 감지하는 다른 방법이 있습니까?

+1

stats.stackexchange.com으로 마이그레이션하는 것이 좋습니다. – Simone

답변

0

어쩌면 가장 중요한 정보를 추출하기 위해 스피어 만 또는 피어슨의 상관 관계를 쌍으로 계산할 수 있습니다. 모든 쌍 특성 상관 관계를 계산할 수 없을 수도 있습니다 (이차 곡선은 기능의 수).

결정 트리의 노드와 같은 기능의 상대적 발생 통계를 활용하여 동일한 작업을 수행하는 더 영리한 방법이있을 수 있습니다.