text-extraction

    4

    5답변

    PDF에서 텍스트를 추출하는 데 유용한 라이브러리가 있습니까? 나는해야한다면 그것을 지불 할 용의가있다. C# 또는 고전적인 ASP (VBScript)에서 작동하는 것이 이상적 일 수 있으며 페이지와 PDF를 분리 할 수 ​​있어야합니다. This question은 특히 pdftotext과 같은 흥미로운 내용이 있지만 가능한 경우 외부 명령 줄 앱을 호출하

    1

    1답변

    위키 피 디아 덤프 파일을 처리해야하는 java 프로젝트를 수행하고 있습니다. 위키피디아 기사에서 키워드를 추출하기위한 라이브러리를 찾고 있습니다 ... 기본적으로 위키피디아 XML 덤프의 모든 태그 페이지를 읽고 항목 및 카테고리 목록과 비교하고 올바른 경우 선택하여 추가합니다. 내 결과에. 나는 덤프를 읽거나 위키 피 디아 결과를 쓰는 것에 관심이 없다

    1

    2답변

    저는 현재 OpenOffice 매크로와 pdf2text 프로그램을 조합하여 텍스트를 추출하고 있으며 PowerPoint 파일에서 텍스트를 가져 오는보다 쉽고 효율적인 방법을 찾고 싶습니다. 나는 아파치 POI 라이브러리를 사용해 보았지만,보고있는 파일을 처리하려고 할 때 라이브러리 내에서 수많은 예외가 발생했으며, 특히 소스 코드를 살펴보기를 원하지 않는다

    0

    4답변

    계약 작업을 위해, 나는 독일 연방 의회 (Federal Parliament of Germany)에서 많은 오래된 스캔 된 그래픽 전용 총회 토론 프로토콜 PDF를 디지털화해야합니다. 문제는 이러한 파일의 대부분은 2 열 형식을 가지고있다 : Sample Protocol http://sert.homedns.org/img/btp12001.png 내 다음 질문

    4

    2답변

    Wikipedia에 따르면 "인쇄 된 문서를 스캔하는 것과 같이 명확한 이미징을 사용할 수있는 응용 프로그램에서는 라틴 스크립트, 타이프 텍스트의 정확한 인식이 현재 크게 문제로 간주됩니다." 그러나, 그것은 인용문을 제공하지 않습니다. 내 질문은 : 사실입니까? 현재의 최첨단 기술은 영어 텍스트를 잘 스캔 할 수 있도록 아주 훌륭하게 만들어 졌는가? 또는

    17

    8답변

    HTML 페이지를 다운로드 한 다음 일부 정보를 선택하여 다른 파일에 쓰는 프로그램을 작성 중입니다. 단락 태그 사이에있는 정보를 추출하고 싶지만 한 단락 만 가져올 수 있습니다. 내 코드는 다음과 같습니다. FileReader fileReader = new FileReader(file); BufferedReader buffRd = new Buffered

    4

    5답변

    나는 HTML 파일이 주어진다면, 페이지의 내용 텍스트의 대부분을 포함 할 가능성이 가장 높은 부모 요소라고 생각하는 알고리즘을 연구하려고합니다. 의 길이까지 추가 <html> <body> <div id="header">This is the header we don't care about</div> <div id="conten

    5

    4답변

    C# .net에서 pdf 파일의 텍스트를 추출 할 클래스가있는 라이브러리가 있습니까? 몇 가지 시도했지만 문서가 끔찍한, 그래서 나는 그것을 지상에서 얻을 수 없었습니다. 또한 플러스가 될 이미지를 추출하는 클래스를 제공하는 경우. 어떤 제안? 미리 Thx. 또한 기존 응용 프로그램에 구현할 수 있어야합니다.