2014-07-16 4 views
2

저는 사전 처리를 시도하고 있습니다. 따라서 dont 등의 단어는 간단하게하지 않으려 고합니다. 나는 nltk가 편리한 것을 발견하지 못했음을 확인했다. 고유 명사의 사용에 대한 좋은 대답을 나는 조회의 원유 방법을 사용할 수 있지만, 문제는 일 등파이썬 : nlp : 영어 수축을 확장하지 마세요.

초기의 질문 Expanding English language contractions in Python

나던을 제안하십시오 존의 같은 고유 명사로 사용됩니다

+0

존재하는 것과 고유 명사에 대해 다른 질문에서 제안 된 "원유"대체품을 사용하십시오. Jon의 차는 구문론 (Jon의 차)을 시도합니다. 너무 어렵지 않아야합니다. – gkusner

답변

0

관련 NLP 프로젝트에서이 작업을 수행해야했으며 여기서 아무 것도 보이지 않아 문제를 해결하기로 결정했습니다. 관심이 있으시면 내 expander github repository을 확인할 수 있습니다.

기본 확장에 추가로 명사를 처리하기 위해 POS 태깅 및 명명 된 엔티티 인식 (NER)을 사용합니다. disambiguations 함수는 또한와 같은 모호한 양론의 더 어려운 경우를 다루기 위해 포함되어 있습니다. 여기서 NER 태깅은 필수적인 부분입니다. 그것은 이름 인 모든 명사를 인식합니다. 그런 다음 대명사로 대체하여 문법적 상황을 분석하고 적절하다면 그것을 확장합니다.

문장을 실행하는 데 시간이 오래 걸리지 만 코드에 포함 된 테스트 케이스에서이 문제를 해결하고 상당히 잘 실행되는 방법에 대한 내 접근 방식입니다.

자세한 내용은 이전 질문이나 github 저장소에서 the other answer을 직접 확인하십시오.