결국 OpenNLP가 내 프로젝트에 통합되어 15k 줄의 교육 데이터에서 모델을 성공적으로 교육하고 저장하고로드 할 수 있습니다. 내 프로그램의 엔티티를 인식하는 데 사용하고 싶습니다!커스텀 OpenNLP 이름 찾기는 교육 세트의 데이터를 인식하지만 테스트 세트는 아닙니다.
내 훈련 데이터가이 같은 모습, 그래서 해시 태그를 인식하는 데 사용하고 있습니다 : 내가 직접하지 않은 문장을 전달되면 모델이 어떤 해시 태그를 인식 할 수없는 것을 발견하고
...
Jim , I know you to be a fighter <START:HASHTAG> #usmarine <END> @ USMC Kira has your strength & amp ; ours @ t1r1u1t1h R love 2 U , Kira & amp ;
What has changed that people from your JAMAT are insulting Hindu GODS and GODDESSES . Calling our Religion names ... .
Ibtihaj represented the United States of America at the Olympics and brought home a medal , elevating the status of
A story point is a metric used in agile project management and development to determine (or estimate) the difficul
I 'm not shy or quiet , I just do n't find your mind appealing in any way shape or form and I 'm not gon na force a conv
<START:HASHTAG> #paradisepapers <END> , Canadian Taxpayers Federation (CTF) & amp ; tax reform `` CTF has not uttered even a single shocked-and-a
...
을 같은 내 훈련 세트에 :
String paragraph = "Take a shot for #harambe he took one for you!";
내가 확인에도 불구하고,이 예에서 해시 태그를 인식 할 수 없습니다 내 훈련 데이터에서 사용되는 #harambe의 인스턴스가있다. 그러나
, 나는 훈련 데이터로부터 문장을 직접 전달하는 경우 :
String nameParagraph = "Idk whats funnier the #harambe or the fact that Im the only one who will see my page https : t.co/2eWjm6mOon ";
가 제대로 해시 태그로 식별하여 #harambe을 인식 할 수있을 것이다.
내 모델이 모든 해시 태그를 인식하기를 원하기 때문에 #harambe 해시 태그의 인스턴스를 더 많이 공급하여 단일 해시 태그를 인식 할 수 있기를 바랍니다.
내 모델이 교육 집합에 포함되지 않은 새로운 엔티티를 올바르게 식별 할 수 있도록하는 방법에 대한 조언이 있습니까? 미리 감사드립니다!
일반 표현식을 사용하여 해시 태그를 식별 할 수없는 이유가 있습니까? – jbird
그래서이 코드를 뭔가 "간단한 테스트"로 사용하여 정규식이 쉽게 찾을 수없는 여러 종류의 엔티티를 인식하는 데 사용할 계획입니다. –
사용자 정의 생성기를 생성하여 각 "#"에서 트리거 할 수는 있지만 사용하는 방법이 어떨지 모르겠습니다. 어쨌든 해시 태그는 패턴을 따르므로 가능한 경우 정규 표현식을 사용합니다. – jbird