2017-01-23 3 views
1

function/structure words and content/lexical words은 어떻게 구별합니까?기능 대 콘텐츠 단어

나는 이미 StanfordCoreNLP을 사용하고 있으므로 가능하면 활용하고 싶습니다.

더 구체적으로 말하자면, annotator을 사용해야하며 콘텐츠/어휘를 어떻게 표시합니까?

나는 pos을 시도했지만 기능과 내용어를 구별하지 않았습니다.

추신. 나는 lemma 어노 테이터를 사용하여 무시하고 싶은 단어를 얻습니다.

PPS. 나는 pyconlp을 사용한다.

+0

GitHub의 Stanford CoreNLP 버전을 사용하는 경우 해당 단어와 함께 정지 단어 목록을 배포합니다. 다음 경로에 있습니다. https://github.com/stanfordnlp/CoreNLP/blob/master/data/edu/stanford/nlp/patterns/surface/stopwords.txt – StanfordNLPHelp

+0

이 링크는 Java에서 API를 사용하는 예를 보여줍니다. http : //stanfordnlp.github.io/CoreNLP/api.html – StanfordNLPHelp

+0

할 수있는 한 가지는 토큰을 반복하고 정지 단어 목록에 있는지 확인하는 것입니다. – StanfordNLPHelp

답변

0

기능 단어 (중지 단어)는 도메인별로 다르기 때문에 수동으로 큐리스트되는 경우가 많습니다. NLTK에서 범용 목록을 찾을 수 있습니다. CoreNLP는 단 하나 here

from nltk.corpus import stopwords 
stops = stopwords.words('english') 

을 가지고, 당신은 아직도 당신이 케이스를 사용하기 위해 그들이 이해가 있는지 확인하기 위해 그들을 찾아야한다. 저는 최근에 기술 언어로 작업 해 왔기 때문에 'IT'는이 도메인의 머리 글자이고 내용어이므로 '내'목록에서 제거했습니다.

어노 테토 터의 경우 텍스트를 "단어"로 분할하는 일반 용도의 TokenizerAnnotator를 사용할 수 있습니다. 그런 다음 각 단어를 검사하여 중지 단어 목록에 있는지 확인할 수 있습니다. 문자열로 작업하는 경우 공백에 스플릿을 분리하고 불용어 체크를 제거하거나 마개로 표시하십시오.