Java 및 iText 7을 사용하여 데이터를 구문 분석 (및 수정)하기 위해 XFA PDF 양식에서 XML 데이터를 정확하게 분석하려고하지만 동일한 작업을 수행하기 위해 모든 기본 데이터를 수집합니다. 내가 사용하는 모든 XFA 파일.iText 7 (또는 기타)을 사용하여 Java의 XFA PDF 문서에서 XML을 추출하는 방법은 무엇입니까?

iText RUPS 도구에서 수행되었으므로 가능해야한다는 것을 알고 있지만 지금은 며칠 동안 서클에 참가했습니다.

public class Parse { 

    private PdfDocument pdf; 
    private PdfAcroForm form; 
    private XfaForm xfa; 
    private Document domDocument; 
    private Map<Integer, String> data; 
    private int numberOfPages; 
    private String pdfText; 

    public void openPdf(String src, String dest) throws IOException, TransformerException { 

     PdfReader reader = new PdfReader(src); 
     pdf = new PdfDocument(reader, new PdfWriter(dest)); 
     form = PdfAcroForm.getAcroForm(pdf, true); 

     data = new HashMap<Integer, String>(); 
     numberOfPages = getNumberOfPdfPages(); 
     PdfPage currentPage; 
     String textFromPage; 

     for (int page = 1; page <= numberOfPages; page++) { 
      System.out.println("Reading page: " + page + " -----------------"); 
      currentPage = pdf.getPage(page); 
      textFromPage = PdfTextExtractor.getTextFromPage(currentPage); 
      data.put(page, textFromPage); 
      pdfText += currentPage + ":" + "\n" + textFromPage + "\n"; 

     xfa = form.getXfaForm(); 
     domDocument = xfa.getDomDocument(); 
     Map<String, Node> map = xfa.extractXFANodes(domDocument); 

     System.out.println("The template node = " + map.get("template").toString() + "\n"); 
     System.out.println("Dom document = " + domDocument.toString() + "\n"); 
     System.out.println("In map form = " + map.toString() + "\n"); 
     System.out.println("pdfText = " + pdfText + "\n"); 

     Node node = xfa.getDatasetsNode(); 
     NodeList list = node.getChildNodes(); 

     for (int i = 0; i < list.getLength(); i++) { 
      System.out.println("Get Child Nodes Output = " + list.item(i) + "\n"); 


이것은 일반적인 출력입니다.

Reading page: 1 ----------------- 
The template node = [template: null] 

Dom document = [#document: null] 

In map form = {template=[template: null], form=[form: null], xfdf=[xfdf: null], xmpmeta=[x:xmpmeta: null], datasets=[xfa:datasets: null], config=[config: null], PDFSecurity=[PDFSecurity: null]} 

pdfText = [email protected]: 

> Please wait... 
> If this message is not eventually replaced by the proper contents of 
> the document, your PDF viewer may not be able to display this type of 
> document.  You can upgrade to the latest version of Adobe Reader 
> for Windows®, Mac, or Linux® by visiting 
> http://www.adobe.com/go/reader_download.  For more assistance with 
> Adobe Reader visit http://www.adobe.com/go/acrreader.  Windows is 
> either a registered trademark or a trademark of Microsoft Corporation 
> in the United States and/or other countries. Mac is a trademark of 
> Apple Inc., registered in the United States and other countries. Linux 
> is the registered trademark of Linus Torvalds in the U.S. and other 
> countries. 

Get Child Nodes Output = [xfa:data: null] 



파일이 순수 XFA 파일입니다. 즉,이 파일에 저장된 유일한 PDF 내용은 "Please wait ..."메시지로 구성됩니다. 이 페이지는 XFA를 렌더링하는 방법을 모르는 PDF 뷰어에 표시됩니다.

사용하는 페이지에서 내용을 추출 할 때 그것은 또한 당신이 얻는 내용이다 : 모든 관련 콘텐츠가 저장되어 있기 때문에,

currentPage = pdf.getPage(page); 
textFromPage = PdfTextExtractor.getTextFromPage(currentPage); 

이 순수 XFA 파일을 직면 할 때하지 말아야 할 일이있다 PDF 파일 내에 저장된 XML 스트림.

당신은 이미 첫 부분의 권리가 있습니다 :

xfa = form.getXfaForm(); 
domDocument = xfa.getDomDocument(); 

XFA 스트림이 /AcroForm 항목에서 찾을 수있다. 나는 이것이 어색하다는 것을 압니다. 그러나 그것이 PDF가 디자인 된 방법입니다. 이것이 우리가 선택한 것이 아니며 XFA는 PDF 2.0에서 사용되지 않으므로 XFA가 어쨌든 죽어 가고 있습니다. 문제는 XFA가 마침내 죽어서 묻힐 때 사라질 것입니다.

이 인스턴스는 org.w3c.dom.Document이고이 개체에 저장된 XML 파일을 가져 오려고합니다. 이 작업을 수행하기 위해 iText가 필요하지 않습니다. 즉,이 Converting a org.w3c.dom.Document in Java to String using Transformer

에서 예를 들어 설명한 것 나는이 조각을 사용하여 XFA 파일에 해당 코드를 테스트 :

public static void main(String[] args) throws IOException, TransformerException { 
    PdfDocument pdf = new PdfDocument(new PdfReader(SRC)); 
    PdfAcroForm form = PdfAcroForm.getAcroForm(pdf, true); 
    XfaForm xfa = form.getXfaForm(); 
    Document doc = xfa.getDomDocument(); 
    DOMSource domSource = new DOMSource(doc); 
    StringWriter writer = new StringWriter(); 
    StreamResult result = new StreamResult(writer); 
    TransformerFactory tf = TransformerFactory.newInstance(); 
    Transformer transformer = tf.newTransformer(); 
    transformer.setOutputProperty(OutputKeys.ENCODING, "UTF-8"); 
    transformer.setOutputProperty(OutputKeys.INDENT, "yes"); 
    transformer.transform(domSource, result); 

화면에 출력 내가 기대하는 모든 XFA 정보로 XDP XML 파일이었다.

정확히 내가 한 것! 완벽하게 작동합니다! 고맙습니다! – Bryan