2016-11-07 3 views
-1

트윗의 감정 분석에 가장 적합한 피쳐 추출기 (Countvectorizer, TfIdf)는 무엇입니까? 누군가가 각각의 차이점을 설명하고 다른 분류 기준과 가장 관련이있는 내용을 설명해 주실 수 있습니까?scikit-learn을 사용하여 감정 분석을위한 피쳐 추출

는 나는 당신은 감정 분석을위한 최고 K 가장 유익한 기능을 선택하는 SelectKBest 방법을 사용하여 시도 할 수 있습니다 3 가지 classifiers- 나이브 베이 즈, SVM 및 MaxEnt

답변

1

를 사용하도록 계획했다. 이것은 파이썬의 scikit-learn 라이브러리에 있습니다. http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html

당신은로 가져올 수 있습니다

당신이 'CHI2'뿐만 아니라, 특징 추출을위한 'F-정식 종목'점수를 모두 사용하여 시도 할 수 있습니다 설명서를 참조하면
from sklearn.feature_selection import SelectKBest, chi2, f_classif 

. SelectKBest는 출력 변수와 가장 관련성이 높은 기능을 선택하기 때문에 기능을 선택하는 좋은 방법입니다. K 값을 계속 변경하여 실험하고 k 값이 어느 것이 가장 좋은지 확인할 수 있습니다.

+0

아니요. 실제로 기능 추출 방법을 찾고 있었지만 기능 선택 방법을 찾고 있지 않았습니다. – ak9

+0

Tfidf와 Count Vectorizer는 모두 데이터에 따라 다른 결과를 제공합니다. 두 가지 방법 모두 시도해 볼 수 있으며 어느 것이 더 나은 성능을 제공하는지 확인할 수 있습니다. – PJay