ngrams를 사용하여 남성과 여성의 이름을 분류하는 작업을하십시오. 내가 만든 (N = 2,3,4)Python에서 CountVectorizer와 ngram을 결합하십시오.
name is_male
Dorian 1
Jerzy 1
Deane 1
Doti 0
Betteann 0
Donella 0
특정 requarement이 ngrams을 만들려면이 작업
from nltk.util import ngrams
을 사용하는 것입니다 : 그래서 는 dataframe 같이가 이름 목록, 사용 된 ngrams :
from nltk.util import ngrams
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
test_ngrams = []
for name in name_list:
test_ngrams.append(list(ngrams(name,3)))
이제 어떻게 든이 모든 것을 c에 사용할 수 있도록 벡터화해야합니다. 누군가가 내가 할 방법을 설명해주십시오 수
AttributeError: 'list' object has no attribute 'lower'
내가 목록 입력의 잘못된 유형이 여기에 이해, 그래서 나중에 MultinomialNB를 사용할 수 있습니다 lassification, 나는
X_train = count_vect.fit_transform(test_ngrams)
받으십시오 시도 예. 나는 그것을 올바른 방법으로하고 있는가? 미리 감사드립니다.
어떤 남성과 여성 모두 이름에 대한? 아마 1 대신 (is_male, is_female) 2 개의 기능을 갖는 것이 좋습니다. – sergzach