나는 최근에 내가 xx_ent_wiki_sm에을 en_core_web_md 에서 적응에 NER에 사용하는 모델을 투입합니다.명명 된 엔티티 인식 대문자 문제
새로운 모델은 NEW JERSEY (뉴욕) 또는 NEW YORK (뉴욕)과 같은 대문자 단어를 항상 조직으로 인식합니다. 나는 그것이 시간이 많이 걸릴지라도, 모델을 재교육하기 위해 훈련 데이터를 제공 할 수있을 것이다. 그러나 모델이 대문자 단어가 조직이라는 가정을 잃어 버리거나 대신 가정을 유지하고 그것에 대한 예외를 만들 것인지 여부는 확실하지 않습니다. 어쩌면 5 문자 미만의 단어를 가진 모든 대문자는 조직 일 가능성이 높고 글자가 많은 모든 것은 그렇지 않다는 것을 알 수 있습니까? 나는 정확히 정확하게 훈련이 모델에 어떤 영향을 미치는지 알지 못한다.
en_core_web_md는 NEW JERSEY와 같은 단어를 무시하면서 두문자어로 잘 처리된다. 그러나 xx_ent_wiki_sm의 전반적인 성능은 내 유스 케이스에 더 좋습니다
전제는 매우 유용합니다. IBM이 조직과 같은 두문자어를 식별 할 수 있기 때문입니다.
답변 해 주셔서 감사합니다. 나는 이미 Spacy라는 500 개의 뉴스 기사를 가지고 훈련 할 수있다. 시간이 많이 소요되는 측면은 모두 500을 거쳐 잘못된 엔티티를 수동으로 수정하는 것입니다. 예 : ' 올리브 ;; B-ORG Branch ;; I-ORG 상담 ;; L-ORG has ;; O 최근 ;; O 출시 ;; O , ;; O 제공; O in ;; O - ;; O house ;; O 훈련 ;; O in ;; O ;; O 전문가 ;; O areas ;; O ; O mental ;; O 건강 ;; O , ;; O 감정적 ;; O 탄력성 ;; O' (en_core_web_md 모델을 기반으로합니다. 위키 모델과 동일한 열차 데이터 세트를 만듭니다) – Shadi
아직 보지 않았다면 새로운 어노테이션 도구 인 Prodigy 현재 베타 버전입니다.) https://prodi.gy.에 대한 정확한 목적을 위해 설계되었습니다.spaCy와 완벽하게 통합되며 주석을 추가 할 때 업데이트되는 모델을로드 할 수 있으며 가장 관련성이 낮은 예, 즉 예측이 가장 적은 예제를 제안 할 수 있습니다. [이 페이지를 참조하십시오] (https://prodi.gy/docs/workflow-named-entity- 인식) 도구를 사용하여 spaCy의 NER 정확도를 수정하는 예를 참조하십시오. –