다음은 pdf에서 텍스트를 추출하는 데 사용하는 코드입니다 (iText for.Net 버전 7.0.4.0 사용). 테스트 중 관찰 한 것은 PDF의 대부분의 사각형 내에서 내용을 추출하여 잘 작동한다는 것입니다. 그러나 그 중 일부는 전체 라인을 제공합니다. 나도 알아iText (.Net)를 사용하여 사각형에서 텍스트를 추출하면 전체 줄이 표시됩니다.
rect와 교차하는 텍스트 조각 (텍스트의 일부가 rect이 아니므로 iText는 조각으로 텍스트 조각을 자르지 않음)을 알고 있습니다.
그러나 PDF의 어떤 매개 변수가 iText에서 텍스트를 분리하는 데 사용되는지 알고 싶습니다.
var reader = new PdfReader(filePath);
PdfDocument pdfDoc = new PdfDocument(reader);
var addressRect = new Rectangle(33, 190, 70, 42); //
var addressRegionFilter = new TextRegionEventFilter(addressRect);
var filterListener = new FilteredTextEventListener(new LocationTextExtractionStrategy(), addressRegionFilter);
var addressText = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(1), filterListener);
pdfDoc.Close();
사용중인 기능이 버전간에 변경되었습니다. 당신이 묘사하는 행동은 초기 버전의 행동을 생각 나게합니다. 그 동작은 이후 버전에서 변경되었습니다. 어쩌면 문제는 이후 버전에서 재현 할 수 없습니다. 그것은 왜 아무도 당신의 질문에 대답하지 않는 이유를 설명 할 것입니다. –
당신은 iTextSharp (iText)의 버전 또는 내가 추출하려고하는 PDF 버전을 언급하고 있습니까? 필요한 경우 자세한 내용을 제공 할 수 있습니다. – Sridhar
iText 버전을 언급하고 있습니다. Sharp라는 단어를 사용하는 다른 브랜드를 좋아하지 않는 Sharp라는 회사가 있기 때문에 더 이상 iTextSharp라는 이름을 사용하지 않습니다. iText for Java와 iText for .NET에 대해 이야기합니다. –