2013-05-07 7 views
0

텍스트의 n 그램을 계산하기 위해 TfIdfVectorizer를 사용하고 있지만 먼저이를 lemmatize해야합니다. 하나의 서면 형식은 다른 표제어와 일치 할 수 있으므로 모두 표기해야합니다. Scikit-Learn 맥락에서 어떻게 처리 할 수 ​​있습니까? 분석기를 작성하여 TfIdfVectorizer에 전달해야합니까? 어떻게 작동합니까?scikit-learn에서 n 그램을 계산할 때 동형 그래프 처리

답변

1

lemmatizer를 CountVectorizer에 연결하는 코드의 예로는 development version's documentation을 참조하십시오. TfidfVectorizer 사용법은 비슷합니다.

:

+0

WordNetLemmatizer 토큰 당 signle 보조 정리를 반환 (전체 공개는 예를 진정으로 당신에 의해 작성되었습니다.). lemmatizer의 래퍼는 토큰마다 임의의 수의 보조 정리를 반환 할 수 있으며 n-gram이 손상 될 수 있기 때문에 병합 할 수 없습니다. 그것이 문제이다. – lizarisk

+0

@lizarisk : 그러면 대신에 DictVectorizer를보고 자신의 피쳐 추출을 할 수 있습니다. –