2013-10-31 6 views
0

그래서, 버퍼링 된 판독기를 사용하여 자바 프로젝트로 문서 (.txt)를 읽고 편집하고 리턴합니다. 내가 가지고있는 문제는 구두점을 인식 할 수 없다는 것입니다. 문서를 읽습니다.버퍼링 된 독자를 텍스트 문서로 "구분"하는 방법은 무엇입니까?

hello hello.hello, hello/hello?

다른 상황의 테스트로서 나는 처리 할 수 ​​있기를 원합니다. 는 내가 얻을 :

어떤 제안 안녕 안녕 안녕 안녕 안녕? (대답을 위해 필요한 경우 코드 섹션을 제공 할 것입니다.) 구분 기호 사용 방법에 대해 생각하고 있었지만 문맥 적으로 어떻게되는지 (또는 버퍼링 된 판독기로도 가능할지라도) 파악할 수 없습니다.

나는이 문서를 문자 단위로 읽고 편집하며 특정 문자를 포함하는 여러 배열의 검사를 통해이를 실행합니다. 그게 도움이된다면.

+1

'hello hello.hello, hello/hello?'를 입력으로한다면, 예상되는 결과는 무엇입니까? 나는 당신의 말에 약간 혼란 스럽습니다. –

답변

0

당신은 문자열에

다음 (큰 파일에 대한 권장하지 않음) readLine 반복하여 문자열로 전체 파일을 읽을 수 있습니다

String.split("[\s.,/]") 

이 여러 다른 문자에 문자열을 분할합니다.

아니면 아닌 모든 문자에 분할 할 경우 :

String.split("[^A-Za-z]") 

이 당신에게 함께 일할 오히려 쉽게 문자열의 배열을 줄 것이다. 그런 다음 끝에 쓴다.

0

모든 구두점과 공백을 처리하려면 lucene 토크 나이저로 가서 작업을 완료하는 것이 좋습니다. 여기에 샘플 구현이 제공됩니다. How to use a Lucene Analyzer to tokenize a String? 그러나 이는 요구 사항에 따라 다릅니다. 쉼표와 공백 만 있으면, 정규 표현식이 도움이 될 것입니다.