2017-02-24 16 views
2

PDF 링크에서 PDF의 키워드 값을 추출하고 싶습니다. 일부 PDF에 대한 링크가 포함 된 페이지를 크롤링하고 있습니다. 나는 그 PDF를 큐에 넣어야하는 가상 문서를 만들고 싶다. 해당 PDF의 콘텐츠를 크롤링하고 싶지는 않지만 해당 PDF에서 키워드 만 추출하고 싶습니다. inspect 소스로 PDF 링크를 열면 키워드 필드가 생깁니다. 그러나 키워드의 가치는 없습니다. 다음과 같이 보입니다.IBM Watson Explorer를 사용하여 PDF URL의 키워드 특성을 추출하는 방법은 무엇입니까?

<div class="row"> 
<span data-l10n-id="document_properties_keywords">Keywords:</span> <p id="keywordsField">-</p> 
</div> 

PDF에서 키워드를 추출 할 수있는 방법이 있습니까? PDF를 다운로드 할 때 해당 PDF에 키워드가 표시되는 것을보고 PDF 속성 및 키워드 열기에 약간의 가치가 있습니다. 참조 : https://www.ibm.com/support/knowledgecenter/SS8NLW_10.0.0/com.ibm.swg.im.infosphere.dataexpl.engine.tut.virt.doc/t_cc-build-virt-docs.html

답변

0

상자 형태는 모르지만 크롤러 플러그인이나 자체 크롤러를 구현할 수는 있습니다. 추출 메타 데이터를 추가하고 당신이 당신의 PDF 문서에 대한 구현하기 위해 필요한이

@Override 
    public CrawledData updateDocument(CrawledData crawledData) throws CrawlerPluginException { 

     List<FieldMetadata> metadataList = crawledData.getMetadataList(); 
     String MyPDFProperty= getFromOriginalContent(crawledData.getOriginalContents()); 

// getFromOriginalContent 방법 같은 것을 할 수있는 플러그인 크롤러에서, 예를 들어, 인덱스에 추가하는 후크가 있습니다

  if (metadataList == null) { 
      metadataList = new ArrayList<FieldMetadata>(); 
      }      

FieldMetadata pdfFieldMetaData = new FieldMetadata("pdfextractedpropertyr", MyPDFProperty); 
       metadataList.add(pdfFieldMetaData); 
       crawledData.setMetadataList(metadataList); 

      } catch (ClientServicesException e) { 

       logger.error(e.getMessage()); 
       throw new CrawlerPluginException(e); 
      } 
      } 
      return crawledData; 
    }