PDF에서 텍스트를 추출하는 데 유용한 라이브러리가 있습니까? 나는해야한다면 그것을 지불 할 용의가있다. C# 또는 고전적인 ASP (VBScript)에서 작동하는 것이 이상적 일 수 있으며 페이지와 PDF를 분리 할 수 있어야합니다. This question은 특히 pdftotext과 같은 흥미로운 내용이 있지만 가능한 경우 외부 명령 줄 앱을 호출하
위키 피 디아 덤프 파일을 처리해야하는 java 프로젝트를 수행하고 있습니다. 위키피디아 기사에서 키워드를 추출하기위한 라이브러리를 찾고 있습니다 ... 기본적으로 위키피디아 XML 덤프의 모든 태그 페이지를 읽고 항목 및 카테고리 목록과 비교하고 올바른 경우 선택하여 추가합니다. 내 결과에. 나는 덤프를 읽거나 위키 피 디아 결과를 쓰는 것에 관심이 없다
저는 현재 OpenOffice 매크로와 pdf2text 프로그램을 조합하여 텍스트를 추출하고 있으며 PowerPoint 파일에서 텍스트를 가져 오는보다 쉽고 효율적인 방법을 찾고 싶습니다. 나는 아파치 POI 라이브러리를 사용해 보았지만,보고있는 파일을 처리하려고 할 때 라이브러리 내에서 수많은 예외가 발생했으며, 특히 소스 코드를 살펴보기를 원하지 않는다
계약 작업을 위해, 나는 독일 연방 의회 (Federal Parliament of Germany)에서 많은 오래된 스캔 된 그래픽 전용 총회 토론 프로토콜 PDF를 디지털화해야합니다. 문제는 이러한 파일의 대부분은 2 열 형식을 가지고있다 : Sample Protocol http://sert.homedns.org/img/btp12001.png 내 다음 질문
Wikipedia에 따르면 "인쇄 된 문서를 스캔하는 것과 같이 명확한 이미징을 사용할 수있는 응용 프로그램에서는 라틴 스크립트, 타이프 텍스트의 정확한 인식이 현재 크게 문제로 간주됩니다." 그러나, 그것은 인용문을 제공하지 않습니다. 내 질문은 : 사실입니까? 현재의 최첨단 기술은 영어 텍스트를 잘 스캔 할 수 있도록 아주 훌륭하게 만들어 졌는가? 또는
HTML 페이지를 다운로드 한 다음 일부 정보를 선택하여 다른 파일에 쓰는 프로그램을 작성 중입니다. 단락 태그 사이에있는 정보를 추출하고 싶지만 한 단락 만 가져올 수 있습니다. 내 코드는 다음과 같습니다. FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new Buffered
나는 HTML 파일이 주어진다면, 페이지의 내용 텍스트의 대부분을 포함 할 가능성이 가장 높은 부모 요소라고 생각하는 알고리즘을 연구하려고합니다. 의 길이까지 추가 <html>
<body>
<div id="header">This is the header we don't care about</div>
<div id="conten
C# .net에서 pdf 파일의 텍스트를 추출 할 클래스가있는 라이브러리가 있습니까? 몇 가지 시도했지만 문서가 끔찍한, 그래서 나는 그것을 지상에서 얻을 수 없었습니다. 또한 플러스가 될 이미지를 추출하는 클래스를 제공하는 경우. 어떤 제안? 미리 Thx. 또한 기존 응용 프로그램에 구현할 수 있어야합니다.