이것은 실제로 WEKA 특정 질문임을 인정하지만 stats.stackexchange.com에 더 적합한 질문 일 수 있습니다. 이제 값이 누락 된 문제를 잘 처리하는 모델이 WEKA에있을 수 있습니다. WEKA에 대해서는 잘 모르겠지만, 이것을 적절하게 처리하는 의사 결정 트리 구현이있을 수 있습니다.
그러나 누락 된 기능 값은 어려운 문제이므로 먼저 기본 고려 사항 몇 가지를 작성하는 것이 좋습니다. 이러한 고려 사항은 WEKA의 자동 기능으로 이루어져야하므로 도메인 지식을 사용하여 사전에 수행하는 것이 좋습니다.
'적용 불가능'은 기능을 누락시키는 방법 중 하나입니다. 따라서 데이터 집합에 따라 '누락'과 '적용 불가'라는 구별이있을 수도 있고 아닐 수도 있습니다. "실종"이라는 가치를 부르는 경우, 단순히 가치가 없다는 말입니다. 왜 그것이 누락 되었습니까?
기능 상실의 원인은 여러 가지가 있습니다. 일부는 다른 기능보다 더 해로운 것일 수 있습니다.
- 어떤 어떤 값에 "추측"에 누락 된 값을 교체 누락 된 값을 가진 모든 기능을 제거 누락 된 값
- 있는 모든 기록을 삭제 :이 상황에서 주로 세 가지 옵션이있다 해야한다. 이를 대체 (imputation)라고합니다.
가장 보수적이고 안전한 선택은 분명히 기능을 삭제하는 것입니다. 이 작업을 수행 할 때 단순히 원래 기능이 누락되었는지 여부를 나타내는 추가 표시기 기능을 만드는 것이 유용합니다. 이 정보는 좋은 모델을 피팅하는 데 유용 할 수 있습니다.
이러한 세 가지 방법 중 하나를 선택하면 고려해야 할 몇 가지 사항이 있습니다.
- 99999가 0과 동일한 메커니즘이 아닌 명시 적 NA 결정에서 생성된다는 것을 알고 계십니까? 제로가 생성되는 메커니즘은 무엇입니까? 단순히 "misssing"이라고 설명하기 때문입니다.
- 누락 된 값을 나타내는 이러한 기능 값은 얼마나 흔합니까? 누락 된 특성 값이 많을수록 위험한 사례 삭제 또는 특성 대체가 발생합니다.
- 귀속에 가치가 있다고 생각한다면 도메인 지식을 통해 적절한 값을 선택할 수 있습니까? 예를 들어, 값이 일정 값에서 벗어 났을 때 (고혈압을 말하자)에만 값을 입력하고 예상 수준에있을 때 값을 비워두면 누락 된 경우에이 값을 입력하는 것이 타당합니다.