nltk 기능 세트를 scipy.sparse 배열로 변환하는 방법이 있습니까?

입력에 numpy/scipy 배열이 필요한 scikit.learn을 사용하려고합니다. nltk에서 생성 된 기능 세트는 unigram 및 bigram 주파수로 구성됩니다. 수동으로 할 수도 있지만 많은 노력이 필요합니다. 그래서 제가 간과 한 해결책이 있는지 궁금합니다.nltk 기능 세트를 scipy.sparse 배열로 변환하는 방법이 있습니까?

출처

2011-12-06 Karthick

왜 피쳐 값을 가져 와서 numpy 배열에 넣을 수 없습니까? – cyborg

내가 알지는 못했지만 scikit-learn은 n -gram 그램 자체를 카운트 할 수 있습니다. 가정 단어 수준 N -grams :

files 문자열 또는 파일 - 류의 객체의 목록입니다

from sklearn.feature_extraction.text import CountVectorizer, WordNGramAnalyzer 
v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=2)) 
X = v.fit_transform(files)

. 이 후 X은 원시 빈도 카운트의 scipy.sparse 행렬입니다.

출처

2011-12-06 14:05:10

제이콥 퍼킨스는 정확히 여기 않습니다 분류를 scikit가 배울 소스입니다 사용 교육 NLTK 분류에 대한 AA 다리를했다 :

당신이 버전을 사용하는 경우 패키지 가져 오기 라인을 업데이트해야 https://github.com/japerk/nltk-trainer/blob/master/nltk_trainer/classification/sci.py

0.9 이상 .

출처

2011-12-07 08:26:36 ogrisel

nltk 기능 세트를 scipy.sparse 배열로 변환하는 방법이 있습니까?

답변

관련 문제