PDF에서 내 보낸 구조화되지 않은 텍스트 데이터로 작업하고 있습니다. 원본 데이터는 텍스트 형식으로 변환 된 PDF의 표에서 가져온 것이므로 남아있는 것은 일반적인 구조입니다. 내가보고있는 특정 부분은 테이블이었습니다. 문자열을 값 사이의 거리를 기준으로 열로 분할합니다.
그래서 예를 들어, 여기A B C D E
1 2 3
4 6 7
첫번째 라인 헤더를 나타내는 일부 샘플 입력되고, 다음 줄이 값이다.
간격은 (다소) 유지됩니다. 각 열 사이에는 항상 최소 두 개의 공백이 있습니다. 그러나 실제 공간의 수는 파서가 테이블 구조에 따라이를 처리하기로 결정한 방법에 따라 달라집니다.
이 행을 다음 배열로 구문 분석하려고합니다. 헤더를 먼저 파싱하여 열을 가져온 다음 나머지 줄을 파싱하는 동안 필요한 템플릿으로 사용합니다.
{"A", "B", "C", "D", "E"}
{"1", "2", "", "", "3"}
{"4", "", "6", "7", ""}
이 정보 만 제공하면 정확하게 수행 할 수 있습니까?
헤더를 얻으려면'split ("\\ s +")'을 사용할 수 있습니다. 하지만 두 번째 줄이 '{ "1", "2", "" ""3 "}"이 아니라 어떻게'' "1", "" "2", "", 3 "}' – ruhungry
예. 하지만 여기에 더 많은 것을 얻기위한 노력을 보여줄 필요가 있습니다. – tod
@ GirlyGirl 공간의 수와 (대부분) 원래의 데이터를 기반으로합니다. – MxyL