일부 pdf 파일의 경우 tika를 사용하여 텍스트를 추출하고 텍스트 파일에 텍스트를 저장했습니다. 이제 opennlp 청크 파서를 사용하여 이러한 파일을 구문 분석하고 싶지만 일부 특수 문자 (일부 사각형 기호)가 단어 사이에 공백없이 포함되어 있기 때문에 파일 줄을 구문 분석하지 못했습니다. 텍스트 파일의 샘플 행 (그 사각형 타입 기호, 발음 구별 기호를)공백을 제외하고 파일 줄에서 모든 특수 문자를 제거하십시오.
51.2.3 Troubleshooting DHCP Configuration ?
62 Module 3: Point-to-Point Protocol (PPP) ?
62.1 Configuring HDLC Encapsulation ?
그래서 내가
Troubleshooting DHCP Configuratin
Module 3: Point-to-Point Protocol(PPP)
Configuring HDLC Encapsulation
으로 선을 얻으려면를 표시 할 수 없습니다 방법이 작업을 수행하는 날을 제안하세요?
안녕, 내 라인이 특정 형식으로, 내가 정규식을 쓸 수없는, 특정 형식 만 특정 문자가없는 경우 당신은 여전히 정규식을 사용할 수 있습니다 – user2609542
다른 해결책이있다. 인쇄 할 수없는 모든 문자를 제거하려면 replaceAll ('[^ \\ p {Print}]', "")'을 사용하십시오. 특정 문자를 바꾸려면 위의 replace 메소드를 사용하여 문자를 나열하십시오. A-ZA-Z0-9에없는 erverything을 replaceAll ('[\\ W]', "")'로 제거 할 수도 있습니다. –