0

기계 학습을 처음 사용합니다. 기계 학습 개념을 적용해야하는 프로젝트를 진행 중입니다.기계 학습 텍스트 분류 기술

문제 설명 :

내가 .I이 알고리즘을 제공 할 필요가 키 words.These 일곱 개 고정 categories.Each 카테고리 훈련 데이터 (샘플 키워드) 데으로 분류 할 필요가 (3000 말) 수가 많은 , 새 키워드가 전달되면 해당 키워드가 속한 카테고리를 예측해야합니다.

어떤 텍스트 분류 기술을 this.do에 적용해야하는지 알지 못합니다. 사용할 수있는 도구가 있습니다.

도와주세요.

미리 감사드립니다.

+0

http://stackoverflow.com/questions/32073662/machine-learning-techniques-to-use –

답변

0

이것은 선형 분류에 해당됩니다. 당신은 이것을 위해 순진 베이 분류자를 사용할 수 있습니다. 대부분의 ml 프레임 워크는 순진한 베이를 구현합니다. ex : mahout

+0

답변 해 주셔서 감사합니다. – user1648855

+0

naive-bayes 이외의 다른 분류기가 있습니까? 기존 분류기를 구현 한대로 사용할 수 있습니까? 아니면 변경해야합니까? WEKA 도구를 살펴보고 있습니다. 이에 대한 좋은 생각이 있습니다. – user1648855

0

네, Naive Bayes를 사용하는 것이 좋습니다. Naive Bayes는 다소 기본 분류 알고리즘입니다. 반면에 분명히 많은 알고리즘이 있습니다. 랜덤 포리스트 및 지원 벡터 머신이 마음에 듭니다. http://machinelearningmastery.com/use-random-forest-testing-179-classifiers-121-datasets/을 참조하십시오. Weka, Rapidminer 등과 같은 표준 툴킷을 사용하는 경우 이러한 알고리즘을 사용할 수 있어야합니다. Java 용 OpenNLP도 있으며 최대 엔트로피 분류자를 제공합니다.

0

당신은

또는 가장 가까운 거리에있는 카테고리에 각 사용자의 범주에 대한 설명 및 키워드 데이터 세트에서 다음 간단한 일치하는 각 키워드 사이의 Word2Vec 말씀 코사인 거리를 사용하여, 당신은 이미에서 훈련 데이터 집합을 만들 수 있었다 카테고리, 키워드와 일치하고 모델의 입력으로 각 카테고리에 대한 키워드 코사인 거리의 벡터를 사용하여 인공 신경망을 기반으로 ML 분류기를 사용합니다. 그러나 그것은 훈련에 대한 많은 양의 데이터가 좋은 정확도에 도달하도록 요구할 수 있습니다. 예를 들어, MNIST 데이터 세트에는 70000 개의 샘플이 포함되어 있으며 간단한 CNN으로 99,62 % 모델의 교차 유효성 검사 정확도에 도달 할 수있었습니다. 2000 샘플 만있는 다른 데이터 세트의 경우 약 90 %의 정확도에 도달했습니다.

0

많은 분류 알고리즘이 있습니다. 귀하의 예제는 텍스트 분류 문제로 보입니다 - 좋은 분류 기준은 SVM과 순진한 베이 일 것입니다. SVM의 경우, liblinear 및 libshorttext 분류는 좋은 옵션은 (그리고 많은 산업 applcitions에 사용되었습니다) :

liblinear : https://www.csie.ntu.edu.tw/~cjlin/liblinear/ libshorttext : 그들은 또한 scikit-learna 및 WEKA로 ML 도구에 포함되어 https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

.