text-extraction

    0

    2답변

    Apache PDFBox 라이브러리를 처음 사용합니다. 나는 이미 Questios How to extract font styles of text contents using pdfbox? 겪었 PDF 파일 단락에 글꼴 정보를 매핑 할 그러나 단락이있는 글꼴로 작성에 대한 정보를 제공하지 않습니다. para1 : 예를 들어, 내 페이지에 텍스트가 포함 된 경우

    1

    4답변

    나는 명령을 원하는 복사 킬 (kill) 링 형태. emacs-live에서, 내가 찾을 수있는 가장 가까운 것은이 명령/키 결합 (global-set-key (kbd "M-]") 'kill-ring-save) 그러나 죽일 - 링 - 저장 일부 남았습니다 행동을 가지고 있었다. Ii는 커서를 지나서 하나 이상의 양식을 복사합니다. 궁극적으로, 나는 아래의

    0

    4답변

    일부 swf 파일에서 모든 텍스트를 추출해야합니다. 나는이 언어로 개발 된 많은 모듈을 가지고 있기 때문에 자바를 사용하고있다. 그래서 웹에서 SWF 파일을 처리하는 데 사용되는 모든 무료 Java 라이브러리를 검색했습니다. 마지막으로, 라이브러리가 StuartMacKay에 의해 개발 된 것을 발견했습니다. 변형 -swf이라는 라이브러리는 here을 클릭하

    1

    2답변

    저는 텍스트 요약에 PHP 프로젝트 (Codeigniter 사용)를하고 있습니다.이 때문에 Rich TextBox (이 내용에는 태그 포함)의 내용에서 문장을 추출해야합니다. 따라서 에는 HTML 태그이 포함 된 콘텐츠에서 문장을 추출하는 적절한 방법 또는 Codeigniter 라이브러리가 있습니까?

    1

    2답변

    한 항목이 같은 문자열 목록이 있습니다. textItem1 = "Brown, Adam. (user)(admin)(Sales)" 여기서 괄호의 마지막 쌍 (이 경우에는 항상)에서 텍스트를 추출해야합니다. 영업. string name = DDlistName.SelectedItem.ToString(); int start = name.IndexOf("(");

    0

    1답변

    싶지 않아, 내가 이름 7 개 파일이 : 나는라는 이름으로이 파일에서 이름을 추출 할 g18_84pp_2A_MVP1_GoodiesT0-HKJ-DFG_MIX-CMVP1_Y1000-MIX.txt g18_84pp_2A_MVP2_GoodiesT0-HKJ-DFG_MIX-CMVP2_Y1000-MIX.txt g18_84pp_2A_MVP3_GoodiesT0-HKJ-D

    0

    1답변

    나는 PdfTextStripper (PDFBox 1.8.2)를 사용하여 pdf 파일의 모든 TextPosition을 처리하고 있습니다. 나는 많은 파일들에 대해 테스트를 해왔고 독서 주문서에서 텍스트를 처리하는 것으로 나타났습니다. 그러나, pdf에 꼬리말 (pdf로 내 보낸 docx)이 있으면 좋지 않습니다. pdfTextStripper는 바닥 글을 먼저

    1

    1답변

    저는 작업중인 PDF 텍스트 추출 프로젝트의 일부로 Python PDFTK를 사용하고 있습니다. 누구든지 을 더 잘 알고 있습니까 텍스트 추출 라이브러리를 사용할 수 있습니까? 저는 파이썬을 사용하고 있지만, 요즘은 가능합니다. 나는 또한 대안을 찾고 있는데, 기본적으로 동등하거나 그 이상으로 달릴 수있는 모든 것. 일부 PDF 파일 (암호화되지 않은 파일

    2

    1답변

    나는이 필드를 검색하여 이미지에서 텍스트를 추출하는 새로운 방법을 제시하는 몇 가지 논문을 찾았지만 그레이 스케일 이미지는 간단한 배경과 일부 텍스트로 구성되어 있습니다. 따라서 모든 사람들이 그와 함께 작동하는 방법이 필요합니다. 이 작업을 수행하는 방법에 대한 자세한 정보를 제공해주십시오.

    1

    1답변

    텍스트 섹션을 추출해야하는 몇백 개의 PDF 파일이 있습니다. 많은 사람들에게 pdftotext은 잘 작동하지만 다른 사람들에게는 큰 텍스트 섹션이 누락됩니다. 내가 인코딩없이 Acrobat의 PDF를 열고 손으로 텍스트를 선택하고 이맥스에 붙여 넣기 한 후 파일을 볼 수/복사하는 경우,이 같은 물건을 얻을 : Husband \364\200\200\272\