텍스트 분류 - 라벨 전 공정 - 우수한 라이브러리

콜센터와의 고객 상호 작용을 관찰 한 데이터 세트가 있습니다. 텍스트는 대표자가 전화를 통해 작성한 무료 텍스트입니다. 텍스트의 형식이 올바르지 않거나 문법적으로 정확하지 않습니다 (많은 짧은 손). 어떤 텍스트를 제공할지 모르겠으므로 자유 텍스트에는 데이터에 레이블이 없습니다.텍스트 분류 - 라벨 전 공정

데이터의 크기가 주어지면 데이터의 무작위 샘플 (높은 수준의 신뢰성 제공)이 만들어야 할 레이블을 결정하는 첫 번째 단계가됩니까? 데이터에서 400+ 무작위 관측을 수동으로 레이블링하지 않아도되는지 또는 분류에 사용할 좋은 레이블 집합을 결정하기 위해 데이터를 사전 처리하는 다른 방법이 없는지?

문제에 대한 도움을 주시면 감사하겠습니다.

출처

2017-02-05 meb33

레이블에 해당하는 이상적인 문서를 매우 잘 알고 있으므로 수동 주석은 좋은 옵션입니다.

그러나 데이터 세트 크기가 크기 때문에 LDA를 문서에 적용하고 생성 된 항목을 살펴 보는 것이 좋습니다. 이렇게하면 텍스트 분류에 사용할 수있는 레이블을 얻을 수 있습니다.

텍스트 분류에 대한 LDA를 사용할 수도 있습니다. 레이블에 대한 대표 문서를 찾은 다음 유사성 측정 항목 (코사인)으로 해당 문서에 가장 가까운 문서를 찾습니다.

레이블을 생각한 후에는 LDA를 사용하여 직접 개입하지 않고 레이블을 지정할 수도 있지만 자율 학습에 제한을 받게됩니다.

희망이 도움이됩니다.

P. - 모든 불용어를 제거하고 줄기를 사용하여 전처리 단계에서 유사한 왕의 단어 (관리, 관리, 관리)를 함께 클럽에 사용하십시오.

출처

2017-02-05 05:19:30 vendaTrout

와우. 그게 ... 강력합니다. 정말 고맙습니다. 누구든지 R에서 구현 된 것을 보길 원한다면 여기를 참고하십시오 : http : //stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics-different-documents-belong-to – meb33

텍스트 전처리 : 그것은 기본 단어의에 변환, unigrams으로 토큰 화, 소문자 모든 중지 단어를 제거하는 모든 텍스트는 사용 형태소 분석기는 토큰을 정상화합니다.

내가 말한 자유 텍스트 인 문서를 분류하기 위해 생각할 수있는 두 가지 접근 방법이 있습니다. 각 자유 텍스트는 다음과 같은 문서입니다.

1) 감독 분류 시간을 갖고 임의로 문서 샘플을 선택하고 카테고리를 지정하십시오. 카테고리 당 여러 개의 문서가 있고 예측할 모든 카테고리가 포함될 때까지이 작업을 수행하십시오.

다음으로이 텍스트에서 Tf-Idf 행렬을 만듭니다. 상위 K 개의 기능을 선택하십시오 (최상의 결과를 얻으려면 K 값 조정). 또는 SVD를 사용하여 상호 연관된 기능을 하나로 결합하여 기능 수를 줄일 수 있습니다. 고객 서비스 관리자의 부서와 같은 다른 기능을 비롯하여 다른 많은 기능을 예측 요소로 사용할 수 있다는 점을 명심하십시오. 이제 기계 학습 모델을 훈련시키고 테스트 해보십시오.

2) 자율 학습 : 출력 변수에 몇 개의 카테고리가 있는지 알고 있으면 만들려는 클러스터 수로 그 수를 사용할 수 있습니다. 위에서 기술 한 Tf-Idf 벡터를 사용하여 k 개의 클러스터를 생성합니다. 각 클러스터에서 무작위로 몇 개의 문서를 선택하고 문서가 속한 범주를 결정하십시오. 5 개의 문서를 선택하고 해당 문서가 "환불 받기"카테고리에 속한 것으로 나타났습니다.이 클러스터의 모든 문서에 "원할 경우 환불"이라고 표기하십시오. 나머지 모든 클러스터에 대해이 작업을 수행하십시오.

자율 학습의 이점은 사전 분류 및 데이터 준비의 고통을 덜어 주지만 감독되지 않은 학습에주의해야한다는 것입니다. 정확도는 감독 학습만큼 좋지 않을 수 있습니다.

설명 된 2 가지 방법은 수행 할 수있는 작업에 대한 추상 개요입니다. 이제 아이디어를 얻었으므로 주제를 자세히 읽고 rapidminer와 같은 도구를 사용하여 작업을 훨씬 빨리 완료하십시오.

출처

2017-02-06 08:31:06 Arjun

텍스트 분류 - 라벨 전 공정

답변

관련 문제