7

굴절 형태의 단어를 줄이기 위해 lemmatization을 적용하고 싶습니다. 나는 영어로 WordNet이 그런 기능을 제공한다는 것을 알고 있지만 네덜란드어, 프랑스어, 스페인어 및 이탈리아어로 lemmatization을 적용하는 데에도 관심이 있습니다. 이 문제에 대해 신뢰할만한 확실한 방법이 있습니까? 고맙습니다!영어 이외 단어의 약자 화?

+0

https://stackoverflow.com/questions/13131139/lemmatize-french-text?rq=1 – DNA

+0

인용 된 질문에 대한 답변은 프랑스어 형태소자가 설명하지만 제외 키워드가 아닙니다. – duhaime

+0

나는 똑같은 것을 찾아야 만합니다. 이탈리아 –

답변

8

CLIPS에서 pattern 라이브러리를 사용해보십시오. 독일어, 영어, 스페인어, 프랑스어 및 이탈리아어를 지원합니다. 필요한 것 : http://www.clips.ua.ac.be/pattern

불행히도 파이썬 2에서만 작동합니다. 아직 파이썬 3을 지원하지 않습니다.

+0

고마워, 그게 완벽 해! 그냥 내가 뭘 찾고 있었는지! – Crista23

-1

텍스트 라이브러리 http://textacy.readthedocs.io/en/latest/api_reference.html은 옵션의 일부로 포함 된 유사 화가 포함 된 단어 또는 가방을 가방에 넣기위한 필수 도구를 제공합니다. 나는 스페인어로 그것을 시도하고 꽤 괜찮 작동합니다.

doc.to_bag_of_terms(ngrams=2, named_entities=True, lemmatize=True, as_strings=True) 

라이브러리가 자동으로 언어를 당신이 쓰고있어 및 lemmatize가에 따라 확인합니다. 그러나 여기에서 지정할 수도 있습니다. 'Y'1 :

import textacy 
text = 'Los gatos y los perros juegan juntos en el patio de su casa' 
doc = textacy.Doc(text, lang='es') 
print(doc.to_bag_of_words(normalize='lemma', as_strings=True)) 

다음 { '페로'와 같은 출력을 얻을 것이다 (1), '가토를'1 'jugar'1 '같진를'1 '로스를 ': 1,'patio ': 1}

라이브러리는 일부 단어를 잘 인식하지만 보조 정리가 완전히 인식되지 않았습니다. 희망이 도움이됩니다.

+0

영어가 아닌 언어에 라이브러리를 사용하는 방법과 예제 출력을 표시하는 방법을 좀 더 설명했다면 유용 할 것입니다. – vpekar