PdfTextStripper
는 속성 SortByPosition (getSortByPosition
& setSortByPosition
)을 갖는다. 기본적으로 false
입니다.
이 속성이 false,
인 경우 PdfTextStripper
은 PDF 페이지 콘텐츠 스트림에 나타나는 순서대로 텍스트를 추출합니다.
콘텐츠 순서에서 다음 인쇄 된 텍스트를 페이지의 원하는 위치에 배치 할 수있는 연산자를 사용하기 때문에이 순서가 완전히 엉망이 될 수 있지만 함께있는 텍스트 섹션은 함께 유지됩니다 (이러한 섹션에 필요한 작업이 자주 그 스트림에 블록으로서 삽입된다).
그러나 머리글과 바닥 글은 동시에 추가되기 때문에 본문 텍스트 앞뒤에 함께 표시됩니다.
이 속성이 true,
인 경우, PdfTextStripper
은 본질적으로 위에서 아래로, 왼쪽에서 오른쪽으로 텍스트를 추출합니다 (읽기 순서가 오른쪽에서 왼쪽으로 정의되지 않은 경우). (좋아, 좋아, 그것은 또한 문서 구슬을 존중하지만, 거의 그들에 일반적으로 사용되는 셀 수 있습니다.)
이 순서는 한 열 텍스트의 경우에 좋은, 그리고 헤더 마지막 처음 와서 바닥 글,하지만하지 않는 한 적절한 기사 구슬이 사용되며, 다중 열 페이지가 엉망이됩니다.
BTW, 당신은 속성 ShouldSeparateByBeads
(getSeparateByBeads
& setShouldSeparateByBeads
)를 사용하여 문서 구슬의 사용을 해제 할 수 있습니다.
출처
2013-07-19 09:01:39
mkl