2014-01-20 6 views
1

나는 R에서 연령대에 따라 aov() 함수를 사용 해왔다. 나는 언제나 .csv 파일을 통해 데이터를 입력하고 변수를 '요인'으로 변환하는 일을 결코 고민하지 않았습니다.r에 필요한 요인/적절한 요소가있는 경우

최근 변수를 변수로 변환하고 aov()를 반복하면 aov()의 결과가 달라집니다.

내 데이터는 0,1,2 카테고리로되어 있습니다. 순서가 지정되지 않았거나 정렬 된 수준은 차이가 없으며 둘 다 요인으로 변환하지 않고 변수를 사용하는 것과 다릅니다.

요인이 항상 적절한가요? 이 전환은 왜 그렇게 큰 차이를 만들까요?

제 질문을 명확하게하기 위해 더 많은 정보가 필요하면 알려주십시오.

답변

2

이것은 실제로 통계적인 질문이지만, 네, 차이를 만들 수 있습니다. R이 변수를 숫자로 처리하면 모델에서 단일 자유도 만 고려합니다. 숫자의 수준이 0, 1, 2 인 경우 요소로 두 자유도를 사용합니다. 이는 모델의 통계 결과를 변경합니다. 숫자와 요인 표현 사이의 모델 복잡도의 차이는 여러 요인이 숫자로 코딩되거나 변수가 몇 단계 이상인 경우 크게 증가합니다. 변수의 포함에서 설명 된 합계의 증가가 통계적으로 유의미한 지 여부는 증가의 크기와 모델의 복잡성 변화에 따라 결정됩니다. 클래스 변수의 숫자 표현을 사용하면 단일 자유 도로 모델 복잡성이 증가하지만 클래스 변수는 k -1 자유도를 사용합니다. 따라서 모델 적합성이 똑같이 향상되면 변수에 숫자 또는 요인을 코딩할지 여부가 응답에 중요한 영향을 미치는지 여부에 따라 상황이 달라질 수 있습니다.

개념적으로, 수치 또는 요인에 기초한 모델은 상이하다; 당신은 샘플링 된 그룹 또는 클래스의 작은 집합을 가지고 있으며 그 목적은 이러한 그룹간에 응답이 다른지 여부를 확인하는 것입니다. 모델은 샘플 그룹 세트에서 고정됩니다. 관찰 된 그룹에 대해서만 예측할 수 있습니다. 숫자를 사용하면 응답이 숫자 변수와 선형 적으로 변한다는 것을 알 수 있습니다. 맞춤 모델에서 관찰되지 않은 숫자 변수의 새로운 값을 예측할 수 있습니다.

(고정 효과에 대한 추론은 고정 효과 모델을 적용한다고 가정합니다. 요인 변수를 임의 효과로 처리하면 샘플링 된 그룹의 정확한 집합에서 채우기의 모든 그룹 집합으로 초점이 이동합니다. 그 샘플을 채취했다.)