weka를 사용하여 데이터베이스에서 데이터를 검색해야하지만 관련 테이블에 일부 데이터가 누락되었습니다. 누락 된 속성으로 arff 파일을 수동으로 개선해야합니까? 내 직업에는 특정 코스에 등록 할 사람 (ID, 이름, 나이, 국적, 전문 분야, 레벨, 이메일, 비밀번호)이 있습니다. 자신의 프로필 (레벨, 전문 분야) 및 트레이스 (코스 또는 아니오의 비디오를 보거나 계정이 있거나 새 계정을 만들었습니다)에 따라 코스에 등록 할 확률을 결정해야합니다. 누락 된 값은 see-video (예, 아니오) 및 account (새, 아니오)입니다. 데이터 마이닝과 weka에 대한 새로운 소식입니다. 덕분에 !weka datamining에 대해 데이터가 누락되었습니다.
답변
먼저 데이터가 누락되었음을 의미하는 것이 무엇인지 생각해야합니다. 누군가가 완전한 데이터 세트를 가져 와서 주사위를 굴려 제거 할 데이터를 결정한 것처럼 완전히 무작위로 누락 되었습니까? 또는 데이터가 누락되었다는 사실로 인해 인스턴스에 대한 정보를 얻을 수 있습니까? 예를 들어 누군가 계정을 만들었는지 여부에 대한 데이터가 없다면 아마도이 데이터를 공유하기를 거부했기 때문에 실제로 해당 카테고리에 속한 사람들은 코스에 등록 할 가능성이 적습니까?
일반적으로 사용되는 J48 트리 분류기와 같은 일부 기술은 누락 된 데이터를 처리 할 수 있습니다. J48은 본질적으로 누락되지 않은 모든 속성에 대해 해당 값의 집계와 같은 인스턴스의 누락 된 값을 처리합니다. 데이터가 완전히 무작위로 누락되면 유효한 결과가 나타납니다.
다른 기술은 누락 된 데이터에 대처할 수 없으며 이러한 기술 중 하나를 사용하려면 나머지 데이터가 누락 될 때까지 데이터에서 속성이나 인스턴스를 제거하거나 누락 된 값을 다음으로 대체해야합니다. 이러한 속성과 인스턴스를 사용하거나 이러한 메소드를 조합 할 수 있습니다. 일반적인 방법은 누락 된 값을 숫자 속성의 누락되지 않은 값의 평균 또는 공칭 속성의 가장 일반적인 누락 값으로 대체하는 것입니다. 그러나 누락 된 값을 사용자가 선택한 다른 값으로 바꿀 수도 있습니다. 당신은 명목상의 속성의 새롭고 분리 된 가치로서 '실종'을 취급 할 수도 있습니다.
Weka에는 분류 작업을 수행하기 전에 이러한 작업을 수행 할 수있는 필터가 있으므로 직접 .arff 데이터를 직접 편집 할 필요가 없습니다.