2011-12-06 8 views
1

입력에 numpy/scipy 배열이 필요한 scikit.learn을 사용하려고합니다. nltk에서 생성 된 기능 세트는 unigram 및 bigram 주파수로 구성됩니다. 수동으로 할 수도 있지만 많은 노력이 필요합니다. 그래서 제가 간과 한 해결책이 있는지 궁금합니다.nltk 기능 세트를 scipy.sparse 배열로 변환하는 방법이 있습니까?

+0

왜 피쳐 값을 가져 와서 numpy 배열에 넣을 수 없습니까? – cyborg

답변

0

내가 알지는 못했지만 scikit-learn은 n -gram 그램 자체를 카운트 할 수 있습니다. 가정 단어 수준 N -grams :

files 문자열 또는 파일 - 류의 객체의 목록입니다
from sklearn.feature_extraction.text import CountVectorizer, WordNGramAnalyzer 
v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=2)) 
X = v.fit_transform(files) 

. 이 후 X은 원시 빈도 카운트의 scipy.sparse 행렬입니다.