PDF 링크에서 PDF의 키워드 값을 추출하고 싶습니다. 일부 PDF에 대한 링크가 포함 된 페이지를 크롤링하고 있습니다. 나는 그 PDF를 큐에 넣어야하는 가상 문서를 만들고 싶다. 해당 PDF의 콘텐츠를 크롤링하고 싶지는 않지만 해당 PDF에서 키워드 만 추출하고 싶습니다. inspect 소스로 PDF 링크를 열면 키워드 필드가 생깁니다. 그러나 키워드의 가치는 없습니다. 다음과 같이 보입니다.IBM Watson Explorer를 사용하여 PDF URL의 키워드 특성을 추출하는 방법은 무엇입니까?
<div class="row">
<span data-l10n-id="document_properties_keywords">Keywords:</span> <p id="keywordsField">-</p>
</div>
PDF에서 키워드를 추출 할 수있는 방법이 있습니까? PDF를 다운로드 할 때 해당 PDF에 키워드가 표시되는 것을보고 PDF 속성 및 키워드 열기에 약간의 가치가 있습니다. 참조 : https://www.ibm.com/support/knowledgecenter/SS8NLW_10.0.0/com.ibm.swg.im.infosphere.dataexpl.engine.tut.virt.doc/t_cc-build-virt-docs.html