2016-10-28 2 views
1
나는 그것이 또한 비 emptypassage을 포함

는 빈 통로 UIMA 루타를 찾을 필요

샘플 입력 파일 annotate.But 정규식 패턴을 사용 document.I에 빈 구절을 주석 할 필요가

:

<p class="MsoNormal"><a name="para10001">You can easily change the formatting</a></p> 
<p class="MsoNormal"><a name="para10002"> </a></p> 
<p class="MsoNormal"><a name="para10003"></a></p> 
<p class="MsoNormal"><a name="para10004">To change the overall look of your document</a></p> 
<p class="MsoNormal"><a name="para10005"></a></p> 
<p class="MsoNormal"><a name="para10006"></a></p> 

루타 스크립트 :

"<p(.*?)><a name=\"para(\\d+)\"></a></p>"->EMPTYPASSAGE; 
    "<p(.*?)><a name=\"para(\\d+)\"> </a></p>"->EMPTYPASSAGE; 
         or 
    "<p(.*?)><a name=\"para(.+?)\"></a></p>"->EMPTYPASSAGE; 
    "<p(.*?)><a name=\"para(.+?)\"> </a></p>"->EMPTYPASSAGE; 

답변

1

귀하의 정규식 여러 <p> 태그를 소비한다. 다음과 같이 시도해보세요.

"<p([^>]*?)><a name=\"para(\\d+)\"></a></p>"->EMPTYPASSAGE; 
"<p([^>]*?)><a name=\"para(\\d+)\"> </a></p>"->EMPTYPASSAGE;