Spacy models은 어휘, 구문, 엔티티 및 벡터를 비롯한 다양한 '유형'과 연결됩니다. 엔티티와 벡터가 문서에서 사용할 수있는 기능에 매핑되는 방식 (엔티티 인식 및 단어 벡터)은 분명하지만 텍스트 구문 분석 후 문서에서 사용 가능한 기능과 어휘 및 구문이 어떻게 관련됩니까? 예를 들어 다국어 모델 'xx_ent_wiki_sm'은 '어휘'를 제공하지 않으므로 해당 모델을 사용하여 is_oov 토큰을 사용할 수 없게됩니다. Spacy를 기반으로 다른 언어 모델에서 작동하는 웹 서비스를 제공하기 때문에이 질문을드립니다.Spacy 모델 유형 및 사용 가능한 기능 매핑
0
A
답변
1
"구문"은 모든 관련 언어 기능 및 속성을 구문 분석하여 종속성을 나타냅니다. 예를 들어, token.dep_
, token.head
, doc.noun_chunks
또는 doc.sents
- 기본적으로 의존성 구문 분석이 필요한 모든 항목 (빠른 개요는 see this page)입니다.
"어휘"는 Vocab
에 가장 자주 나오는 단어가 미리 채워져 있음을 의미합니다. 모델에 vocab이없는 경우 모든 토큰은 어휘가 아닌 것이고 is_oov
의 경우 True
을 반환합니다. 대형 모델은 일반적으로 큰 어휘와 함께 제공됩니다. sm
모델에는 가장 빈번한 단어의 기본 어휘가 포함되어 있어야하지만 일부 데이터가 현재 설정되는 방식에 문제가있을 수 있습니다. 모델의 다음 업데이트에서 수정해야합니다.