2016-07-27 4 views
0

NLP 작업에 Gensim을 사용하고 있으며 현재 빈 문서가 포함 된 코퍼스가 있습니다. 이것이 옵션이긴하지만 내 코드를 다시 실행하고 싶지 않고 단지 내용이없는 문서를 제거하려고합니다. 문서는 이미 TF-IDF corpora로 저장되어 있으며 비어있는 이러한 문서를 제거 할 수있는 방법이 있는지 궁금해하고있었습니다. 나는 어떤 문서가 비어 있는지를 알아낼 수 있지만, 자료 파일은 반복자이며 어떤 유형의 자료 구조 (예 : 목록)가 아닙니다. 감사합니다,Gensim에서 문서 제거

카메론

답변

1

당신은 지금처럼 NumPy와 매트릭스 코퍼스 변환 시도 할 수 있습니다 :

numpy_matrix = gensim.matutils.corpus2dense(corpus, num_terms=number_of_corpus_features) 

그런 다음 적절한 열 (모두 0 항목이있는 사람)를 제거합니다. 당신이 할 필요가 없습니다

corpus = gensim.matutils.Dense2Corpus(numpy_matrix) 

당신이 당신의 현재 상황에서 더 이상 말뭉치를 구축 할 계획이라면, 코퍼스 생성 과정을 수정하는 것이 좋습니다 수 있습니다 : 그런 다음 계속하려면 gensim 코퍼스로 다시 변환 이 모든 때,하지만 당신은 그 생각을 확신합니다.