text-extraction

0열

1답변

PDF에서 텍스트를 추출하는 알고리즘 (뒤죽박죽으로 재 배열 된 텍스트 레이아웃)

PDF는 많은 개별 텍스트 개체로 구성됩니다. 종종 이러한 객체는 문서에 나타나는 순서대로 배치되므로 문서 텍스트를 추출하는 작업은 PDF 스트림에 나타나는 순서대로 텍스트 객체를 읽는 것만 큼 간단합니다. 그러나 많은 PDF가 좋지 않습니다. PDF 사양에서는 텍스트를 PDF 스트림 내에서 정렬 할 필요가 없습니다. PDF의 끝 부분이 스트림의 시작 부분

-2열

1답변

문자열에서 우편 번호 추출 및 PHP에서 select 문 작성

마을 및 우편 번호 정보가있는 DB에서 가져온 문자열이 있습니다. $townZip = 'Boston(02108, 02112, 02116), Chelsea (02150), Revere (02151)'; <select> <option value="">Please Select</option> <option value="02108">02108

1열

1답변

Facebook에서 데이터 추출

나는 파이썬 또는 자바 (또는 웹 기반 응용 프로그램)로 코드를 찾고 Facebook에서 데이터를 추출하고 있습니다. Facebook의 최근 정책으로 인해 API를 통해 공개 소식을 검색 할 수 없습니다. 특정 데이터를 검색하고 검색하는 방법이 있습니까? Facebook의 공개 게시물에서 데이터에 액세스 할 수있는 다리 역할을하는 제 3 자 웹 사이트가 있

-1열

2답변

사진 및 텍스트 추출 양식을 온라인으로 작성하는 방법

나는 이미 과 iText이 있음을 알고 있지만 시각적 콘텐츠 추출 기능이없고 PDF로 오프라인으로 작업해야한다는 것도 알고 있습니다. withal, 나는 텍스트와 비디오 컨텐츠를 온라인으로 추출하는 방법을 원한다. PDF 파일을 다운로드 한 다음 물건을 보내고 싶지는 않습니다. Java 언어에는 어떤 종류의 API 또는 라이브러리가 있습니까? 그것은 분명하

2열

2답변

ACE 편집기에서 텍스트 줄을 검색하는 방법은 무엇입니까?

내 사이트에 ACE 편집기가 통합되어 있습니다. 특정 줄에서 텍스트를 검색하고 싶습니다. 검색 한 결과 This 및 This이 (가) 발견되었습니다. 그러나 불행히도, 나는 그 주제에 초보자이기 때문에, 나는 그들을 이해할 수 없다. 누구나 예제를 줄 수 있습니까? 다음 코드를 사용하여 배열에 줄을 가져 왔습니다. var line = document.get

0열

2답변

Python으로 텍스트 추출 반복

<font color='#FF0000'> and </font> 사이에 텍스트 정보를 추출하는 데 사용하려는 다음 코드가 있습니다. 그것은 잘 작동하지만 그것은 단지 하나의 단위 (첫 번째)를 추출하는 반면 나는이 태그 사이의 모든 텍스트 단위를 추출하고 싶습니다. 나는 bash 루프 코드로 이것을 시도했지만 작동하지 않았다. import os direc

1열

1답변

정규식 (키/값 쌍 추출)

문자열에서 키/값 쌍의 목록 (일치)을 추출하려고합니다. 예는 : PATH_1:"/", PATH_2:"/OtherPath", TODAY:"2016-06-27",XYZ :"1234" 이 제공해야합니다 :이 잘 것을 제외하고 노력하고 있습니다 ((?:"[^"]*"|[^:,])*):((?:"[^"]*"|[^:,])*) 내가 경로를 추가 해요 : 여기

0열

1답변

void 클래스에 매개 변수를 호출하는 방법은 무엇입니까?

나는 pdf에서 텍스트 추출을 다루고있다. 이를 위해 나는 전략을 직접 작성했습니다. 하나의 동적 클래스가 있고이 클래스 내에서 텍스트 추출 전략을 호출합니다. 그러나 동적 클래스에 매개 변수를 도입 할 때 전략 클래스 내에서 사용할 수 없습니다. 명확하게하려면 아래 코드 템플릿을 추가하고 있습니다. 제 질문은 간략하게, renderText에서 "get_i

1열

2답변

org/bouncycastle/asn1/ASN1Primitive error

itextpdf.5.4.1을 사용하여 pdf 파일을 일반 텍스트로 다운로드하고 변환하려고합니다. 그들 중 대부분은 내 코드가 작동하지만 그 중 하나에 대한 파일을 읽으려고 할 때 아래 오류가 발생했습니다. PdfReader reader = new PdfReader(pdf_file_path); Exception in thread "main" java.l

0열

1답변

스캔 한 문서에서 데이터 추출 C#

데이터베이스로 가져올 데이터가 포함 된 PDF 파일이 있습니다. 파일은 인쇄 된 텍스트의 PDF 스캔입니다. 데이터는이 N° Facture : 45526203 Date : 01/12/2014 Nom de la société : company 과 같이 구성되어있다 그러나이 데이터는 항상 내가이 filelds을 인식 할 수있는 도구 또는 API를 원하는