2014-09-02 3 views
2

방금 ​​GRIAL 프로젝트에서 스페인어 단어를 다운로드했으며 형식은 XML입니다. 파이썬 NLTK에서 어떻게 사용할 수 있습니까?NLTK에서 Spanish Wordnet을 사용하는 방법은 무엇입니까?

그 외에도 동일한 페이지에서 스페인어로 태그가 지정된 코퍼스를 다운로드 할 수 있습니다. 어떻게 통합 할 수 있습니까?

+0

그냥 사용하지 왜 NLTK의 내장 스페인어 기능? –

+0

@JamesTobin 내장 된 문제는 매우 깊고 정확하지 않다는 것입니다. 통합 방법에 대해 알고 있습니까? – nanounanue

+0

글쎄, 내 스페인어가 제한되어 있으므로 나열한 웹 사이트를 탐색하려고하면 힘들었습니다. 하지만 XML을 가지고 있다고 생각하면 NLTK 코퍼스 리더로 뭔가를 할 수 있다고 확신합니다. 그들은 http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.xmldocs-module.html 아마 –

답변

1

사용 XMLCorpusReader 여기

코드가 XMLCorpusReader를 사용

from nltk.corpus.reader import XMLCorpusReader 
reader = XMLCorpusReader(dir, file) 

완전히 동작하는 예제가 주어진 것을 할 것 코퍼스으로 XML 데이터를로드하는 here

+0

을 사용하여 XML 파일을 읽을 수 있습니다 ... – nanounanue