-1

데이터 세트가 있고이를 Named Entity Recognition에 태그를 지정하려고합니다. 내 데이터 세트는 페르시아어입니다. 다음과 같은 표현을 어떻게 태그해야하는지 알고 싶습니다.태그 지정 및 교육 NER 데이터 세트

*** آقای مهدی کاظمی = Mr Mehdi Kazemi/Mr will Smith. >>> (제목이있는 이름) 나는 모든 사람을 사람으로 태그해야합니까, 아니면 이름과 성을 태그해야합니까? (나는 또한 "Mr"이라고 태그해야 함)

Mr >> b_per || Mr >> O

Mehdi >> i_per || Mehdi >> b_per

Kazemi >> i_per || Kazemi >> i_per

*** 누이 병원 >> 누어 병원 >>> 이름 만 또는 이름과 병원 모두를 이름있는 개체로 태그해야합니까?

*** 에펠 탑 /가 호출 될 때 페르시아어로 국방부 (I 예를 들어 미국 국방부을 의미) >>> : 를 وزارت دفاع (vezarate의 DEFA) 난 단지 방어에 태그를해야합니까? 아니면 모두 함께?

학교, 영화, 도시, 국가에 대한 예제가 더 많습니다. 명명 된 엔티티보다 먼저 엔티티 클래스를 사용하기 때문에.

이 데이터 세트에 태그를 지정하는 데 도움을 주시면 감사하겠습니다.

답변

0

다음은 CoNLL 2003 교육 데이터의 몇 가지 예입니다.

"Mr." 사람의 일부로 태그가 지정되지 않으므로 제목이 무시됩니다.

"컬럼비아 장로교 병원은"(LOC, LOC, LOC)

"뉴욕 병원"(O, LOC, LOC, O)

"산업 자원부가"(ORG로 태그됩니다 , ORG, ORG)

내 생각은 "에펠 탑 (Eiffel Tower)는"나는 당신이 스탠포드 NLP 및 BIO 형식으로 향하고있다 생각 (LOC, LOC)

+0

나는 그것을 얻었다 고 생각한다. 고맙습니다. – Hedieh

-1

해야한다. 그러나 다른 옵션을 고려할 경우 http://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdf과 같은 구조화 된 엔터티를 볼 수도 있습니다.

이들은 정보 추출을위한 더 정밀한 분석을 제공하여 개체를 나무로 묘사 할 수 있습니다. 주석을 작성하는 것이 지루하지만, 색인 생성뿐만 아니라 의미 론적 목적을 위해 주석을 사용하려는 경우 관련성이 있습니다.

0

일반적으로 출력을 표시하는 방식으로 태그를 지정합니다. 예를 들어, 제목을 포함 시키려면 사용자의 몫입니다. 그러나 핵심 NLP는 중복되는 엔티티에 태그를 지정하지 않으므로 누군가의 이름을 딴 병원과 같은 경우에 결정을 내려야합니다.

+0

답변 해 주셔서 감사합니다. – Hedieh