2017-05-19 4 views
1

MS 문서 (.docx .xls 등)/.pdf를 업로드하고이 파일에서 다음 단어를 사용하여 자바 API.Marklogic Docx 유형 (txt, json 및 xml 제외) 파일 업로드 및 검색

나는

GenericDocumentManager manager = client.newDocumentManager(); 
    StringQueryDefinition query = 
      queryMgr.newStringDefinition().withCriteria("pavan"); 


    DocumentPage documents = manager.search(query, 1); 
    while (documents.hasNext()) { 
     DocumentRecord document = documents.next(); 
     System.out.println("document" + document.getContent(new StringHandle())); 
    } 

는 논리와 코드와 같은 제발 도와주세요, 내가 아래 시도를 검색하려면 DOCX 파일

InputStream docStream = Example.class.getClassLoader().getResourceAsStream(
      "data"+File.separator+"Resume.docx"); 



    GenericDocumentManager manager = client.newDocumentManager(); 

    DocumentMetadataHandle handleMetaData = new DocumentMetadataHandle(); 

    // create a handle on the content 
    InputStreamHandle handle = new InputStreamHandle(docStream); 

    // write the document content 
    manager.write("/example/resume.docx", handleMetaData, handle); 

을 업로드 아래에 노력했다.

답변

2

이 경우 일부 변환을 적용해야합니다. MarkLogic은 이진 문서를 이진 노드로 저장합니다 (이 경우 바이너리 문서는 pdf, docx 등). 물론 바이너리 노드는 검색 할 수 없습니다. 이

  • 또한 컨텐츠 처리 프레임 워크 나는이 희망 https://docs.marklogic.com/guide/cpf/default
  • 을 사용할 수를 달성하는 등 https://docs.marklogic.com/xdmp:pdf-convert 같은

    • 당신은 기능을 사용할 수 있습니다 : 당신이 전환을 달성 할 수 꽤 몇 가지 방법이 있습니다 리소스가 도움이 될 것입니다. 여기에 대한 자세한 내용은 여기에서 자세한 내용을 참조하십시오. http://www.marklogic.com/training/

    +0

    공유 해 주셔서 감사합니다. 우리는 파이프 라인을 설치하고 파일을 업로드 할 수 있습니다. PDF를 업로드 할 수 있는데 처리 된 것을 볼 수 있으며 XML이 생성됩니다. 그러나 내가 검색 할 때 결과를 반환하지 않습니다. 문서 (.docx)의 경우 처리 중이 아니며 기본 변환을 수행하지 않습니다. – Pavan