NLTK

2016-06-25 12 views
5

우리가 사용하는 모든 NLTK 데이터를 다운로드 할 수 있습니다 다운 UI없이 명령 줄에서 corpara 제외한 모든 NLTK 데이터를 다운로드NLTK

> nltk.download('punkt') 
> nltk.download('maxent_treebank_pos_tagger') 

그러나 나는 모든 다운로드하려는 예를 들어, 'corpara'파일을 제외한 데이터는 입니다. 모든 chunkers, grammers, models, stemmers, taggers, tokenizers 등

이렇게 할 수있는 방법은 없습니다. oader UI?

> nltk.download('all-taggers') 
+0

나는이 점을 어느 시점에서 살펴본 것으로 생각하며이를 수행 할 방법을 찾지 못했습니다. 소스 코드는 [here] (http://www.nltk.org/_modules/nltk/downloader.html)에서 볼 수 있습니다. – patrick

답변

2

모든 채움체 목록을 나열하고 _status_cache[pkg.id] = 'installed'을 설정하십시오.

모든 채식주의 자에 대한 상태 값을 'installed'로 설정하고으로 설정하고 nltk.download()을 사용할 때 채소 패밀리를 건너 뜁니다.

모든 코로나 및 모델을 다운로드하는 대신 필요한 코로나/패키지가 확실하지 않은 경우 nltk.download('popular')을 사용하십시오.

import nltk 

dwlr = nltk.downloader.Downloader() 

for pkg in dwlr.corpora(): 
    dwlr._status_cache[pkg.id] = 'installed' 

dwlr.download('popular') 

특정 폴더의 모든 패키지를 다운로드하십시오.

import nltk 

dwlr = nltk.downloader.Downloader() 

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers 
for pkg in dwlr.packages(): 
    if pkg.subdir== 'taggers': 
     dwlr.download(pkg.id)