2014-07-26 3 views
1

데이터 세트가 있고 Weka NaiveBayes 분류자를 사용하여 분류를하고 있습니다. 나는 14 가지 속성을 가지고 있는데 그 중 일부는 명목이다.Weka의 공칭 속성 누락 값

이러한 속성 중 하나에서만 누락 된 값이 있습니다. 내가 지금까지 한 것은 잃어버린 값으로 남겨 두었고, Weka가 자동으로 그 값을 대체한다는 것입니다. (질문은 here에 관한 것입니다).

즉,이 특성의 값은 내 기능 파일에서 비어 있으며 ARFF 파일을 만들 때 "?" 두 쉼표 사이.

이제 두 가지 가능성이 있습니다. 1) Weka가 자동으로 채워지도록하십시오. 2) "NULL"로 바꿉니다.

문제는 첫 번째 경우 분류기가 더 잘 작동한다는 것입니다. Weka가 그들을 대신 할 수 있는지 궁금합니다. 아니면 두 번째 접근법을 사용해야합니까?

"언제"Weka가 누락 된 값을 대체하도록해야합니까? 그리고 그렇지 않을 때?

한편, 값이 누락 된 기능은 단어의 WordNet supersense을 나타내며 비어있는 경우, 예를 들어 전치사 또는 WH 질문을 의미합니다. 사전에

감사합니다,

답변

1

글쎄, 누락 된 값에 대해, 웨카는 기본적으로이를 대체하지 않습니다, 당신은 (당신이 당신의 질문에 처음 연결 정확히 게시물로) 필터를 사용해야합니다. Naive Bayes는 누락 된 값을 처리 할 수있는 분류기도 있습니다. 확률 계산시 누적 값을 계산하지 않아도됩니다. 기본적으로 세 가지 옵션이 있습니다. ReplaceMissingValues ​​필터를 사용하여 누락 된 값을 모드 값으로 바꾸고 필터를 사용하지 않고 누락 된 값이있는 데이터 집합을 사용합니다 (이 경우 Naive Bayes의 작동 방식을 살펴보고 누락 된 값을 처리하는 방법을 이해하고 당신에게 좋다) 그리고 마지막 옵션으로 누락 된 값을 "다른 값"과 같은 자신의 레이블로 대체하십시오. 올바른 선택을위한 열쇠는 마지막 단락에있을 것입니다. 누락 된 값은 아마도 의미가 있음을 나타냅니다. 그렇다면 새 레이블 인 세 번째 방법을 사용하겠습니다. 다른 한편, 누락 된 값이 의미가 없으며 데이터 수집의 일부 오류의 결과 일 경우 처음 두 가지 접근 방법에 대해 생각해 보겠습니다. 행운을 빕니다.