2014-07-16 3 views
0

I는 다음과 같이 두 개의 데이터 세트를 가지고있어서의 dataa성긴 부분 최소 제곱 회귀

 http://www.filedropper.com/dataa_1 ## DataA 
    http://www.filedropper.com/datab ## DataB 

, 우리는 42 행 8 열 및 DataB 42 행과 6 열로있다. 우리는 R에서 이러한 데이터를 모두 사용하여 CCA와 sPLS를하고 싶었습니다.하지만 여기서의 질문은 DataB를 볼 때 항상 11 개의 행마다 동일한 값이 적용된다는 것입니다. 이것이 결과에 영향을 주거나 CCA 또는 sPLS에서 불일치를 유발합니까?

답변

1

블록 B를 살펴본 후 변수가 불연속 인 것처럼 보입니다.

PLS 또는 CCA에서 이러한 변수를 사용하는 것은 기술적 인 문제는 아니지만 통계적으로 "도전 과제"가됩니다. 결과를 통계적으로 해석하려면 bootstap 또는 jackknife을 사용해야 할 수 있습니다.

"이산 형"표현이 데이터에 대해 정확한지 스스로에게 물어야합니다. 원래 변수가 범주 형 인 경우 잘못되었을 수 있습니다.이 경우 dummy variables을 사용해야합니다.