text-extraction

    0

    1답변

    PDF는 많은 개별 텍스트 개체로 구성됩니다. 종종 이러한 객체는 문서에 나타나는 순서대로 배치되므로 문서 텍스트를 추출하는 작업은 PDF 스트림에 나타나는 순서대로 텍스트 객체를 읽는 것만 큼 간단합니다. 그러나 많은 PDF가 좋지 않습니다. PDF 사양에서는 텍스트를 PDF 스트림 내에서 정렬 할 필요가 없습니다. PDF의 끝 부분이 스트림의 시작 부분

    -2

    1답변

    마을 및 우편 번호 정보가있는 DB에서 가져온 문자열이 있습니다. $townZip = 'Boston(02108, 02112, 02116), Chelsea (02150), Revere (02151)'; <select> <option value="">Please Select</option> <option value="02108">02108

    1

    1답변

    나는 파이썬 또는 자바 (또는 웹 기반 응용 프로그램)로 코드를 찾고 Facebook에서 데이터를 추출하고 있습니다. Facebook의 최근 정책으로 인해 API를 통해 공개 소식을 검색 할 수 없습니다. 특정 데이터를 검색하고 검색하는 방법이 있습니까? Facebook의 공개 게시물에서 데이터에 액세스 할 수있는 다리 역할을하는 제 3 자 웹 사이트가 있

    -1

    2답변

    나는 이미 과 iText이 있음을 알고 있지만 시각적 콘텐츠 추출 기능이없고 PDF로 오프라인으로 작업해야한다는 것도 알고 있습니다. withal, 나는 텍스트와 비디오 컨텐츠를 온라인으로 추출하는 방법을 원한다. PDF 파일을 다운로드 한 다음 물건을 보내고 싶지는 않습니다. Java 언어에는 어떤 종류의 API 또는 라이브러리가 있습니까? 그것은 분명하

    2

    2답변

    내 사이트에 ACE 편집기가 통합되어 있습니다. 특정 줄에서 텍스트를 검색하고 싶습니다. 검색 한 결과 This 및 This이 (가) 발견되었습니다. 그러나 불행히도, 나는 그 주제에 초보자이기 때문에, 나는 그들을 이해할 수 없다. 누구나 예제를 줄 수 있습니까? 다음 코드를 사용하여 배열에 줄을 가져 왔습니다. var line = document.get

    0

    2답변

    <font color='#FF0000'> and </font> 사이에 텍스트 정보를 추출하는 데 사용하려는 다음 코드가 있습니다. 그것은 잘 작동하지만 그것은 단지 하나의 단위 (첫 번째)를 추출하는 반면 나는이 태그 사이의 모든 텍스트 단위를 추출하고 싶습니다. 나는 bash 루프 코드로 이것을 시도했지만 작동하지 않았다. import os direc

    1

    1답변

    문자열에서 키/값 쌍의 목록 (일치)을 추출하려고합니다. 예는 : PATH_1:"/", PATH_2:"/OtherPath", TODAY:"2016-06-27",XYZ :"1234" 이 제공해야합니다 :이 잘 것을 제외하고 노력하고 있습니다 ((?:"[^"]*"|[^:,])*):((?:"[^"]*"|[^:,])*) 내가 경로를 추가 해요 : 여기

    0

    1답변

    나는 pdf에서 텍스트 추출을 다루고있다. 이를 위해 나는 전략을 직접 작성했습니다. 하나의 동적 클래스가 있고이 클래스 내에서 텍스트 추출 전략을 호출합니다. 그러나 동적 클래스에 매개 변수를 도입 할 때 전략 클래스 내에서 사용할 수 없습니다. 명확하게하려면 아래 코드 템플릿을 추가하고 있습니다. 제 질문은 간략하게, renderText에서 "get_i

    1

    2답변

    itextpdf.5.4.1을 사용하여 pdf 파일을 일반 텍스트로 다운로드하고 변환하려고합니다. 그들 중 대부분은 내 코드가 작동하지만 그 중 하나에 대한 파일을 읽으려고 할 때 아래 오류가 발생했습니다. PdfReader reader = new PdfReader(pdf_file_path); Exception in thread "main" java.l

    0

    1답변

    데이터베이스로 가져올 데이터가 포함 된 PDF 파일이 있습니다. 파일은 인쇄 된 텍스트의 PDF 스캔입니다. 데이터는이 N° Facture : 45526203 Date : 01/12/2014 Nom de la société : company 과 같이 구성되어있다 그러나이 데이터는 항상 내가이 filelds을 인식 할 수있는 도구 또는 API를 원하는