데이터 집합에 많은 수의 클래스가 포함되어 있지만 숫자 클래스가 아닌 숫자가 아닌 변수가있는 경우 대상 클래스가 불균형 일 때와 같은 문제가 발생합니까?기계 학습, 불균형이 아닌 숫자가 아닌 변수 클래스가 중요합니까?
예를 들어 내 변수 중 하나가 title이고 목표가 사람이 비만인지 식별하는 것이 었습니다. 데이터 비만 클래스는 50:50으로 나뉘지만 'Duke'라는 제목이있는 행은 하나뿐입니다.이 행은 비만 클래스에 있습니다. 이것은 로지스틱 회귀 (숫자 인코딩 후)와 같은 알고리즘이 모든 공작원이 비만하다고 (또는 '듀크'라는 제목에 대한 비례 가중치를 가짐) 예측하기 시작할 것인가? 그렇다면이 알고리즘을 처리 할 때 알고리즘이 더 좋거나 나쁘지는 않은가? 이 문제를 방지 할 수있는 방법이 있습니까?