트윗에 대한 분류자를 훈련시키고 있습니다. 그러나 분류기의 정확도는 100 %이며 가장 유익한 기능 목록에는 아무 것도 표시되지 않는다는 것이 문제입니다. 아무도 내가 뭘 잘못하고 있는지 알아? 나는 분류 자에 대한 나의 모든 입력이 정확하다고 믿습니다. 그래서 그것이 잘못 될지 전혀 모르겠습니다. feature_set = [(find_features (a
트위터에서 감상적 분석을 디자인하려고합니다. NLTK 튜토리얼하지만를 사용하여 데이터 코드 import pickle
import random
import nltk
from nltk import pos_tag
from nltk.classify import ClassifierI
from nltk.classify.scikitlearn import Sk
그래, NaiveBayes Movie Review Classifier를 교육 했으므로 ... (내가 복사하여 txt 파일에 붙여 넣은 웹 사이트에서) 부정적 리뷰에 대해 실행하면 'pos'를 얻는 ... 나는 틀린 무엇인가하고있다? 여기에 아래의 코드입니다 : import nltk, random
from nltk.corpus import movie_rev
우리가 사용하는 모든 NLTK 데이터를 다운로드 할 수 있습니다 다운 UI없이 명령 줄에서 corpara 제외한 모든 NLTK 데이터를 다운로드 > nltk.download('punkt')
> nltk.download('maxent_treebank_pos_tagger')
그러나 나는 모든 다운로드하려는 예를 들어, 'corpara'파일을 제외한 데이터
명명 된 엔티티 인식/분류를 수행하고 IOB 태그가 지정된 형식으로 출력을 생성해야합니다. NLTK-train library에 의해 전달되는 NLTK 청크를 사용하고 있지만 IOB 태그 목록이 아닌 트리가 생성됩니다. def chunk_iob(list_of_words):
nltk_tagger = nltk.data.load("taggers/conll
나는 기계 학습에 초보자입니다. 현재 내가 원하는 것은 어떤 단어가 어떤 카테고리에 속하는지 아닌지를 분류하는 것입니다. 더 구체적으로 말하면 어떤 단어를 입력 할 때 "Malayalam"이라는 언어로되어 있는지 확인해야합니다. 예 : enthayi ninakk sugamanno? 영어로 표기된 일부 말라 얄 람어입니다. 이런 식으로 약간의 정보를 입력하면
저는 nltk 라이브러리에서 새로 왔으며 분류 자에게 내 자신의 코퍼스로 일부 라벨을 가르치려고합니다. How O
do B-MYTag
you I-MYTag
know O
, O
where B-MYTag
to O
park O
? O
(PS 이것은 단지 만들어 샘플 ...) 내가 이렇게 self.classifier = nltk.MaxentCla
나는 분류 작업을 수행해야하는 데이터로 만든 사용자 지정 데이터가 있습니다. movie_reviews corpora에 포함 된 것과 동일한 형식으로 데이터 세트를 보유하고 있습니다. nltk 문서에 따르면 다음 코드를 사용하여 movie_reviews corpora에 액세스합니다. 어쨌든 nltk_data/corpora 디렉토리에 임의의 커스텀 콜라를 추가