텍스트 데이터로 데이터 집합을 정리하고 분류에 사용하는 방법

누락 된 값이 많고 범주 값이 더 많은 데이터 집합의 성별 분류자를 작업하고 있습니다. 범주 값을 숫자 값으로 변환하고 사용해야하는 알고리즘은 무엇입니까? 정확도를 높이려면? https://github.com/lakshmipriya04/py-sample/텍스트 데이터로 데이터 집합을 정리하고 분류에 사용하는 방법

2017-12-28 LPR

범주 형 변수 인코딩에는 더미 변수 만들기와 레이블 인코딩을 통한 인코딩이 있습니다.

더미 변수의 누락 값은 더미 열의 각 묶음에 대해 null-vector로 표시됩니다. 레이블 인코딩의 경우 특정 클래스 (레이블) 일 수 있습니다.

누락 된 값 문제를 해결하려면 평균 (숫자 값) 또는 모드 (범주 형)를 사용하여 문제를 풀 수 있습니다. 값이 누락 된 경우 1을 가지며 그렇지 않으면 0 인 추가 누락 값 표시 열을 만드는 것이 유용 할 수 있습니다.

imputation을 사용하면 ML의 분류자를 사용할 수 있습니다. SVC를 사용해보십시오 (바이너리 분류가 있으므로) 간단한 로지스틱 회귀부터 시작하십시오.

전신하지 않으면 XGBoost가 도움이됩니다 (데이터 집합에 누락 된 값이 있음).

하지만 약간 다른 문제가 있습니다. 텍스트를 사전 처리해야합니다. NLP에 대해 읽어보십시오.

2017-12-29 05:23:51 avchauzov

주어진 제품 카테고리의 성별을 분류해야하므로 sub_sub_category, 설명 및 제목 기능을 삭제할 수 있습니까? //github.com/lakshmipriya04/py-sample – LPR

가능합니다. 그러나 정확성이 좋지 않다면 sub_sub_category, 설명 및 제목을 반환하는 것이 나중에 잘못되지는 않습니다. – avchauzov

설명을 살펴보십시오. 때때로 '여성', '남성', '여성', '남성'이 있음을 볼 수 있습니다. '짧은 모델'이 완벽하지 않은 경우이 토큰은 매우 유용 할 수 있습니다. – avchauzov

답변