2016-09-23 4 views
-1

변수 집합 (벡터, 모두 길이가 동일한 N)이 있습니다. X1, X2, X3, X4, X5, X6 ... Xn. 및 일부 변수 X에 따라 달라지는 시계열 Y (동일한 길이 N)이 있습니다.데이터 세트에서 가장 의미있는 변수를 찾으십시오.

XY과 가장 관련이있는 변수를 결정하는 알고리즘이 필요합니다. 즉, 가장 의미있는 변수를 버리고 Y에 가장 영향력있는 변수를 가져와야합니다.

예 :

하는의 우리가 특정 IT 사이트의 웹 트래픽에 영향을 미치는 결정하기를 원하는 경우를 생각 해보자. 키워드 5, 키워드 2, 키워드 3, 키워드 4, 키워드 5가 있습니다.

의 우리가 구글 (키 1 = X1, 키 2 = X2 2, 키 = X3, KEY4 = X4, key5 = X5) 및 전체 웹 트래픽 Y에 키워드의 검색 량 있다고 가정 해 봅시다. 위의 세트 (X1, X2, X3, X4 또는 X5) 중 어떤 키워드가 해당 웹 사이트로가는 총 웹 트래픽에 가장 큰지를 결정하고 싶습니다. 어떤 변수를 버리고 가장 많은 트래픽을 이동시킬 수 있습니까? (이 모든 벡터와 시계열이 0-100 범위의 정규화되고 표준화 된 시계열이라고 가정 해 봅시다)

+0

변수의 대부분이 출력 Y와 선형 관계가 있다고 생각한다면 단계별 회귀를 수행 할 수 있습니다. http://www.mathworks.com/help/stats/stepwisefit.html 모델에 포함시킬 변수 –

+1

아마도이 사실을 이미 알고있을 것입니다. 그러나이 일반적인 문제는 기계 학습 커뮤니티에서 기능 선택 *으로 알려져 있습니다. [Wikipedia article] (https://en.wikipedia.org/wiki/Feature_selection)은 시도 할 수있는 여러 가지 방법을 설명합니다. Matlab의 통계 및 기계 학습 도구 상자에서 바로 사용할 수있는 몇 가지 방법이 있습니다 . @SomeGuy가 언급했듯이 단계별 선형 회귀 분석이 그 중 하나입니다. 또 다른 인기있는 방법은 [lasso method] (http://www.mathworks.com/help/stats/lasso.html)입니다. – khonegger

답변

0

한 가지 방법은 기능 선택 svm을 사용하는 것입니다.

필자는 Feature Generation Machine을 사용하여이 작업을 성공적으로 마쳤습니다. 이 링크를 확인하십시오 : http://www.tanmingkui.com/fgm.html