2017-05-21 5 views
2

R- 패키지 randomForest가있는 임의의 포리스트 모델에서 두 수준의 변수를 포함하면 실제로 어떤 일이 발생하는지 궁금합니다. 나는 레벨을 지정해야하는 다단계 데이터에 logistical regression을 사용하는 것에 익숙하다. 임의의 숲과 비슷한 것이 있습니까? 아니면 국가 수준 변수와 개별 수준 변수를 동일한 임의의 포리스트 모델에 넣고 모든 변수의 중요성을 비교할 수 있습니까?R에서 randomForest를 계층 적 데이터로 사용할 수 있습니까?

som 도움을 주셔서 감사합니다.

+1

R에서 혼합 효과 무작위 포리스트 모델을 검색하면 많은 기사를 찾을 수 있습니다. 그러나 R에 혼합 효과 랜덤 포리스트를 구현 한 실제 R 패키지를 찾지 못했습니다. 여전히 데이터에'randomForest' 패키지를 사용할 수 있습니다. 귀하의 모델은 개인이 계층 적 모델로 국가 내에서 클러스터링되는 다단계 모델과 달리 모든 변수가 "고정 효과"인 전통적인 선형 회귀 분석과 유사합니다. 그래서'randomForest'를 가진 모델은 데이터의 계층 적 구조에 함축 된 정보를 이용하지 않을 것입니다. – eipi10

답변

1

randomForest 패키지는 회귀 분석과 분류의 두 가지 모드를 지원합니다. 회귀 모드에서 빌드하는 모델은 근본적으로 연속 함수처럼 작동합니다. 이 경우 모델을 작성하여 수치 응답을 예측할 수 있습니다. 분류 모드에서 모델은 여러 클래스 중 하나를 예측합니다. 응답 변수로 factor를 사용하여 randomForest을 실행하면 회귀 모드가 자동으로 사용됩니다. 사용하는 모드는 실제로 가지고있는 데이터 유형에 따라 다릅니다. 판매와 같은 것을 예측하고 있습니까? 이것은 지속되는 경향이 있습니까? 또는 잘 정의 된 클래스 그룹을 예측하고 있습니까?

동일한 모델에서 국가 및 개인 수준 변수를 섞는 것에 대해서는 이것이 적절하지 않다고 생각합니다. 당신은 아마도 국가 수준의 분석과는 별도로 개인 수준의 분석을 수행해야합니다. 예외는 각 국가별로 많은 개인을 모으고 국가 수준의 분석을 실행하려는 경우 일 수 있습니다.

+0

나는 분류를 위해 임의의 숲을 사용하고 있으며 (이분법 Y) 계층 적 병참 모형과 같은 다른 수준의 변수의 중요성을 비교하기를 원합니다. –

+0

당신이 범주 형으로 예측하려는 응답이 있습니까, 아니면 숫자로 설명 될 수 있습니까? –

+0

나는 개인 수준의 변수 (예 : 교육)와 국가 수준의 변수 (예 : GDP)를 모두 사용하여 동성애 관용 (범주 별 개인 수준 결과)을 예측하려고합니다. –