2017-10-17 3 views
0

weka를 사용하여 데이터베이스에서 데이터를 검색해야하지만 관련 테이블에 일부 데이터가 누락되었습니다. 누락 된 속성으로 arff 파일을 수동으로 개선해야합니까? 내 직업에는 특정 코스에 등록 할 사람 (ID, 이름, 나이, 국적, 전문 분야, 레벨, 이메일, 비밀번호)이 있습니다. 자신의 프로필 (레벨, 전문 분야) 및 트레이스 (코스 또는 아니오의 비디오를 보거나 계정이 있거나 새 계정을 만들었습니다)에 따라 코스에 등록 할 확률을 결정해야합니다. 누락 된 값은 see-video (예, 아니오) 및 account (새, 아니오)입니다. 데이터 마이닝과 weka에 대한 새로운 소식입니다. 덕분에 !weka datamining에 대해 데이터가 누락되었습니다.

답변

0

먼저 데이터가 누락되었음을 의미하는 것이 무엇인지 생각해야합니다. 누군가가 완전한 데이터 세트를 가져 와서 주사위를 굴려 제거 할 데이터를 결정한 것처럼 완전히 무작위로 누락 되었습니까? 또는 데이터가 누락되었다는 사실로 인해 인스턴스에 대한 정보를 얻을 수 있습니까? 예를 들어 누군가 계정을 만들었는지 여부에 대한 데이터가 없다면 아마도이 데이터를 공유하기를 거부했기 때문에 실제로 해당 카테고리에 속한 사람들은 코스에 등록 할 가능성이 적습니까?

일반적으로 사용되는 J48 트리 분류기와 같은 일부 기술은 누락 된 데이터를 처리 할 수 ​​있습니다. J48은 본질적으로 누락되지 않은 모든 속성에 대해 해당 값의 집계와 같은 인스턴스의 누락 된 값을 처리합니다. 데이터가 완전히 무작위로 누락되면 유효한 결과가 나타납니다.

다른 기술은 누락 된 데이터에 대처할 수 없으며 이러한 기술 중 하나를 사용하려면 나머지 데이터가 누락 될 때까지 데이터에서 속성이나 인스턴스를 제거하거나 누락 된 값을 다음으로 대체해야합니다. 이러한 속성과 인스턴스를 사용하거나 이러한 메소드를 조합 할 수 있습니다. 일반적인 방법은 누락 된 값을 숫자 속성의 누락되지 않은 값의 평균 또는 공칭 속성의 가장 일반적인 누락 값으로 대체하는 것입니다. 그러나 누락 된 값을 사용자가 선택한 다른 값으로 바꿀 수도 있습니다. 당신은 명목상의 속성의 새롭고 분리 된 가치로서 '실종'을 취급 할 수도 있습니다.

Weka에는 분류 작업을 수행하기 전에 이러한 작업을 수행 할 수있는 필터가 있으므로 직접 .arff 데이터를 직접 편집 할 필요가 없습니다.