UIMA RUTA 2.6.0을 사용하여 여러 단어 토큰을 일치 시키려고합니다. 그리고 부분적으로 서로 같은 일부 문구가 있습니다. 예를 들어. 지. 동일한 파일에 다음 항목이 있습니다. "포함", "포함", "여기", "있음".UIMA RUTA 단어 목록 일치 문제
입력 파일에 다음 텍스트가 있습니다 : ""1. "요원 또는 직원"에는 임원이 포함됩니다 ... ". 분명히 "에는"이 포함되지만 단어 목록에 3 개 이상의 다른 항목이 있으면 일치하는 항목이 없습니다. 또한 단어 목록에있는 항목의 순서는 일치 성공 여부에 달려 있지 않습니다. 항상 실패합니다.
그리고이 문제는 단일 파일에서만 발생하지 않습니다. 그래서, 질문 : 어떻게 해결할 수 있습니까? RUTA annotator의 일부 설정 일 수 있습니까?
이 가장 가능성이 단어 목록에서 공백으로 인해 발생의 개발자입니다. 모두 제거해보십시오. 작동하는 경우 config 매개 변수 dictRemoveWS로 해결할 수 있습니다. –
@peter, 이것은 이상한 논리이지만 작동합니다. 고마워요! – user8047159
예, 합리적이지는 않지만 단어 목록은 공백 패턴에도 적용될 수 있으므로 일반적으로 무시할 수 없습니다. 어쩌면 나는 기본적으로이 매개 변수를 기본값으로 true로 설정했습니다. –