NLTK와 같은 NLP 툴킷을 만들고 싶다면 토큰 화 및 정규화 이후에 먼저 구현할 기능이 필요합니다. POS 태깅 또는 Lemmatisation?구현 순서에 가장 먼저 오는 것은 POS 태깅 또는 유사점?
1
A
답변
2
음성의 일부는 언어의 일부에 따라 다른 의미를 갖는 단어로서 작동하도록 문자 화에 중요합니다. 이 정보를 사용하여, lemmatization은 기본 형식이나 보조 정리를 반환합니다. POS 태그 지정 구현이 먼저 완료되면 더 좋을 것입니다.
표제법의 주요 개념은 단어의 다른 형식을 하나로 묶는 것입니다. 예를 들어, 가고, 가고, 및 이되면은 하나가됩니다. 은이됩니다. 그러나이를 구하기 위해 명제 화는 단어가 명사인지 동사인지에 관계없이 단어의 컨텍스트를 알아야 할 것이다. 따라서, 언어 화 함수는 단어와 품사를 입력으로하여 보조 정리를 반환 할 수있다. 정보를 처리 한 후
2
물론 POS 태그러를 먼저 만드십시오. 언어 작성을 처음 수행 할 경우 특히 POS 타가를 할 때 가능한 가장 좋은 단어 분류를 잃을 수 있습니다. 특히 언어가 이고 모호성이 인 언어가 포르투갈어 인 경우가 많습니다.
lemmatization을 돕기 위해 POS 태그를 통합하는 방법에 대해 조금 더 설명해 주시겠습니까? – Djokester
예, 답을 업데이트했습니다. 찾고 계신 것이 맞는지 확인해주세요. –