PlWordNet 버전 3.0에는 두 개의 .xml
파일이 제공됩니다. 첫 번째 파일은 plwordnet-3.0.xml
(이는 Princeton WordNet format
에 있음)이고 두 번째 파일은 plwordnet-3.0-visdisc.xml
(이는 VizDic format
)입니다. 이 프로젝트의 파일 readme은 NLTK로 데이터를로드하는 제안 된 방법이 작동하지 않기 때문에 어떻게 든 모호한 것으로 보입니다. PlWordNet은 공식 project site에서 다운로드 할 수 있습니다.NLTK에 plwordnet (Słowosieć) 3.0을로드하는 방법
이 wordnet을 NLTK로로드하려고하고있어 synsets를 반복 할 수 있습니다. 이미 두 가지 방법을 시도했지만 둘 다 작동하지 않습니다.
a) 및 (...)\nltk_data\corpora\wordnet
으로 xml 파일을 복사합니다. 코드 결과를 테스트하기 :
from nltk.corpus import wordnet as wn
wn.synsets('Politechnika')
불행하게도 빈 목록을
B를 반환) How to use the Spanish Wordnet in NLTK?에 설명 된대로 XML 파일을로드)합니다 (NLTK 패키지에서 XMLCorpusReader를 사용하여. 테스트에 코드 :
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader(dir, 'plwordnet-3.0.xml')
하지만 난 reader.words()
를 실행하면 (숫자 만 나타내는, 유니 코드 객체)에만 ID의 목록을 반환합니다. 또한 synsets간에 관계를 가져 오는 방법은 없습니다.
누구나 Princeton Wordnet 3.1 또는 PlWordNet (Słowosieć) 3.0을 사용 했습니까?
필자는 xml.etree
을 사용하여 수동으로 synsets 및 설명 목록을 가져 왔지만, 관계를 사이에 얻는 방법을 이해할 수 없습니다.
감사합니다.
작성 했습니까? 어떤 힌트? –