2017-11-10 27 views
1

SpacyV1에서 문서 및 BILOU 형식의 엔티티 주석 목록을 제공하여 NER 모델을 학습 할 수있었습니다.Spacy 2.0 NER Training

V2 교육 에서처럼 (7, 13, 'LOC')와 같은 엔티티 주석을 제공하는 것만 가능하므로 엔티티 오프셋 및 엔티티 태그가있는 것 같습니다.

토큰 목록을 제공하는 기존 방법과 BILOU 형식의 엔티티 태그 목록이 여전히 유효합니까?

설명서에서 nlp.update 메서드가 GoldParse 개체 목록을 받아들이므로 각 문서에 대한 GoldParse 개체를 만들고 BILOU 태그를 해당 엔터티 특성에 전달할 수 있습니다. 그러나 GoldParse 클래스의 다른 속성 (예 : 머리 또는 태그 https://spacy.io/api/goldparse)을 무시하여 중요한 정보를 잃거나 NER 교육에 필요하지 않은 다른 속성입니까?

감사합니다.

답변

2

예, BILUO 태그를 사용하여 여전히 GoldParse 개의 개체를 만들 수 있습니다. 사용 예제가 "더 간단한"오프셋 형식을 사용하는 가장 큰 이유는 읽기 쉽고 이해하기 쉽도록 오프셋 형식을 사용하기 때문입니다.

NER을 훈련하려는 경우을 사용하고 훈련 중에 다른 모든 파이프 라인 구성 요소 (예 : 'tagger' 및)를 사용 중지 할 수 있습니다. 블록 후에는 구성 요소가 복원되므로 모델을 저장하면 전체 파이프 라인이 포함됩니다. NER training examples에서 실제로이를 볼 수 있습니다.

0

어떻게 GoldParse 개체를 사용하여 훈련 할 수 있습니까? 나는 잠시 동안 내가 알아 내지 못했던 것을 시도하고있다.

+0

이미 할 수있었습니다! 나는 BILOU 태그 (U, O, I, B, L)가있는 레이블을 추가하고 있었고 그것들 없이는 레이블을 추가해야했습니다. – melalonso