2017-11-17 6 views
0

Spacy models은 어휘, 구문, 엔티티 및 벡터를 비롯한 다양한 '유형'과 연결됩니다. 엔티티와 벡터가 문서에서 사용할 수있는 기능에 매핑되는 방식 (엔티티 인식 및 단어 벡터)은 분명하지만 텍스트 구문 분석 후 문서에서 사용 가능한 기능과 어휘 및 구문이 어떻게 관련됩니까? 예를 들어 다국어 모델 'xx_ent_wiki_sm'은 '어휘'를 제공하지 않으므로 해당 모델을 사용하여 is_oov 토큰을 사용할 수 없게됩니다. Spacy를 기반으로 다른 언어 모델에서 작동하는 웹 서비스를 제공하기 때문에이 질문을드립니다.Spacy 모델 유형 및 사용 가능한 기능 매핑

답변

1

"구문"은 모든 관련 언어 기능 및 속성을 구문 분석하여 종속성을 나타냅니다. 예를 들어, token.dep_, token.head, doc.noun_chunks 또는 doc.sents - 기본적으로 의존성 구문 분석이 필요한 모든 항목 (빠른 개요는 see this page)입니다.

"어휘"는 Vocab에 가장 자주 나오는 단어가 미리 채워져 있음을 의미합니다. 모델에 vocab이없는 경우 모든 토큰은 어휘가 아닌 것이고 is_oov의 경우 True을 반환합니다. 대형 모델은 일반적으로 큰 어휘와 함께 제공됩니다. sm 모델에는 가장 빈번한 단어의 기본 어휘가 포함되어 있어야하지만 일부 데이터가 현재 설정되는 방식에 문제가있을 수 있습니다. 모델의 다음 업데이트에서 수정해야합니다.