2016-07-05 3 views
1

PlWordNet 버전 3.0에는 두 개의 .xml 파일이 제공됩니다. 첫 번째 파일은 plwordnet-3.0.xml (이는 Princeton WordNet format에 있음)이고 두 번째 파일은 plwordnet-3.0-visdisc.xml (이는 VizDic format)입니다. 이 프로젝트의 파일 readme은 NLTK로 데이터를로드하는 제안 된 방법이 작동하지 않기 때문에 어떻게 든 모호한 것으로 보입니다. PlWordNet은 공식 project site에서 다운로드 할 수 있습니다.NLTK에 plwordnet (Słowosieć) 3.0을로드하는 방법

이 wordnet을 NLTK로로드하려고하고있어 synsets를 반복 할 수 있습니다. 이미 두 가지 방법을 시도했지만 둘 다 작동하지 않습니다.

a) (...)\nltk_data\corpora\wordnet으로 xml 파일을 복사합니다. 코드 결과를 테스트하기 :

from nltk.corpus import wordnet as wn 
wn.synsets('Politechnika') 

불행하게도 빈 목록을

B를 반환) How to use the Spanish Wordnet in NLTK?에 설명 된대로 XML 파일을로드)합니다 (NLTK 패키지에서 XMLCorpusReader를 사용하여. 테스트에 코드 :

from nltk.corpus.reader import XMLCorpusReader 
reader = XMLCorpusReader(dir, 'plwordnet-3.0.xml') 

하지만 난 reader.words()를 실행하면 (숫자 만 나타내는, 유니 코드 객체)에만 ID의 목록을 반환합니다. 또한 synsets간에 관계를 가져 오는 방법은 없습니다.

누구나 Princeton Wordnet 3.1 또는 PlWordNet (Słowosieć) 3.0을 사용 했습니까?

필자는 xml.etree을 사용하여 수동으로 synsets 및 설명 목록을 가져 왔지만, 관계를 사이에 얻는 방법을 이해할 수 없습니다.

감사합니다.

답변

-1

PlWordNet 3.0은 NLTK에서 더 이상 지원되지 않습니다.

나는 내 자신의 파서를 쓸 것이다.

+0

작성 했습니까? 어떤 힌트? –