2014-03-03 5 views
17

지금 NLP 라이브러리를 사용 중입니다. (스탠포드 및 nltk) 스탠포드 데모 부분을 보았지만 더 많은 엔티티 유형을 식별하는 데 사용할 수 있는지 물어보고 싶습니다.스탠포드 NER 시스템을 명명 된 엔티티 유형을 인식하도록 교육 할 수 있습니까?

그래서 현재 스탠포드 NER 시스템 (데모 프로그램)은 엔티티를 사람 (이름), 조직 또는 위치로 인식 할 수 있습니다. 그러나 인정 된 단체는 대학이나 일부 큰 조직에 국한됩니다. 내 입력이 "회사"로 인식 할 수있는 "Apple"또는 "Square"인 경우 API를 사용하여 더 많은 엔티티 유형의 프로그램을 작성할 수 있는지 궁금합니다.

내 훈련 데이터 세트를 만들어야합니까?

더욱이, 엔티티와 그 둘 사이의 관계를 추출하려면 스탠포드 종속 파서를 사용해야한다고 생각합니다. 먼저, 명명 된 엔티티와 "명사"로 태그 지정된 다른 부분을 추출하고 이들 사이의 관계를 찾습니다.

맞습니다.

감사합니다.

답변

8

네, 고유 한 교육 세트가 필요합니다. 미리 훈련 된 스탠포드 모델은 해당 단어가있는 데이터 (또는 사용하는 기능 집합에 따라 매우 유사한 단어가 무엇인지 모릅니다.)에 대한 교육을 받았기 때문에 "스탠포드"라는 단어 만 명명 된 개체로 인식합니다. 명명 된 엔티티로 표시됩니다.

데이터가 더 확보되면 this question 및 스탠포드 자습서에 설명 된 올바른 형식으로 데이터를 배치해야합니다.

+1

감사합니다. 그래서 나는 명명 된 개체를 인식하도록 설정된 훈련을받은 후에 그것을 추출 할 수 있습니까? "Microsoft의 제품"과 마찬가지로, "Microsoft"를 조직으로, "제품"을 서로 결합하는 다른 것으로 인식 할 수 있습니까? – JudyJiang

+0

사전 훈련 된 모델을 추가 예제로 교육 할 수 있는지 알고 있습니까? –

+0

@ bones.felipe FAQ에 따르면 당신은 할 수 없습니다. https://nlp.stanford.edu/software/crf-faq.shtml#extend – JamesFrost

4

당신은 쉽게 자신의 데이터 코퍼스를 훈련시킬 수 있습니다.

는 스탠포드 NER 자주 묻는 질문에서 첫 번째 질문은 NER

에 대한 우리 자신의 모델을 학습하는 방법입니다

링크는 http://nlp.stanford.edu/software/crf-faq.shtml

그래서 예를 들어 당신은

제품 OBJ와 같은 교육 자료를 줄 수있다
of O
Microsoft ORG

마찬가지로 자신 만의 교육 데이터를 만들고 모델을 만든 다음이를 사용하여 원하는 출력을 얻을 수 있습니다.