2017-11-28 7 views
0

데이터 집합에 많은 수의 클래스가 포함되어 있지만 숫자 클래스가 아닌 숫자가 아닌 변수가있는 경우 대상 클래스가 불균형 일 때와 같은 문제가 발생합니까?기계 학습, 불균형이 아닌 숫자가 아닌 변수 클래스가 중요합니까?

예를 들어 내 변수 중 하나가 title이고 목표가 사람이 비만인지 식별하는 것이 었습니다. 데이터 비만 클래스는 50:50으로 나뉘지만 'Duke'라는 제목이있는 행은 하나뿐입니다.이 행은 비만 클래스에 있습니다. 이것은 로지스틱 회귀 (숫자 인코딩 후)와 같은 알고리즘이 모든 공작원이 비만하다고 (또는 '듀크'라는 제목에 대한 비례 가중치를 가짐) 예측하기 시작할 것인가? 그렇다면이 알고리즘을 처리 할 때 알고리즘이 더 좋거나 나쁘지는 않은가? 이 문제를 방지 할 수있는 방법이 있습니까?

답변

1

예, 바닐라 기계 학습 알고리즘은 특정 기능의 정보 ​​엔트로피 측면에서 수치 데이터와 동일한 방식으로 카테고리 데이터를 처리합니다.

기계 학습 알고리즘을 적용하기 전에 입력 기능을 분석하고 대상의 각 원인에 대한 설명 된 차이를 확인해야합니다. 귀하의 경우 Duke 레이블이 항상 뚱뚱한 것으로 밝혀지면 그 특정 데이터 세트가 매우 높은 정보 기능이므로 가중치를 붙여야합니다.

해당 기능에 가중치를 추가하여 대상에 미치는 영향을 최소화함으로써이 문제를 완화 할 수 있습니다. 그러나 이것이 다른 경우에 매우 유익한 기능이라면 이는 수치 스럽습니다.

이 문제를 쉽게 회피 할 수있는 알고리즘은 임의의 포리스트 (의사 결정 트리)입니다. Duke라는이 기능을 기반으로하는 규칙을 제거 할 수 있습니다.

대부분의 알고리즘에서이 기능으로 인한 중요도에 영향을주기 때문에이 기능을 숫자에 매핑 할 때 매우주의하십시오.