text-extraction

4열

1답변

즉각적인 수준의 콘텐츠를 추출하기위한 최선의 노력을하는 모듈을 찾고 있습니다 (즉, 인용 된 콘텐츠 및 서명 블록 삭제) 전자 메일의 일반 텍스트 구성 요소에서 가져옵니다. 우리는 이미 코드를 가지고 있습니다. 따라서 기존 모듈이 없다면 새 모듈의 이름에 대한 아이디어도 환영 할 것입니다 (Text::ExtractImmediateLevelOfContentF

0열

1답변

규칙을 추가하고 나는 C#에서이 작업을 수행 할 계획입니다이 응용 프로그램 (A-PDF 데이터 추출기) <a href="http://www.a-pdf.com/data-extractor/index.htm" rel="nofollow">http://www.a-pdf.com/data-extractor/index.htm</a></p> <p>와 유사한 기능을 가진 PDF 텍스트 추출 도구를 구축하려는 C# .NET을

를 사용하여 PDF에서 텍스트를 추출. net 그래서이 응용 프로그램 (dll 또는 exe)을 참조하는이 응용 프로그램 구매와 비슷한 인터페이스를 직접 만들고 싶습니다. 그러나 그것은 내가 참조를 추가하게하지 않을 것이다. 어떻게하면됩니까? 내 C# 데스크톱 응용 프로그램 내에서 다른 응용 프로그램을 실행할 수있는 방법이 있습니까? 당신이 더 나은 옵션이있

0열

1답변

파이썬에서 가독성 (텍스트 추출 알고리즘)과 맞춤 알고리즘을 사용하여 텍스트에서 링크를 추출하는 방법이 있습니까?

파이썬에서 가독성 (텍스트 추출 알고리즘)과 맞춤 알고리즘을 사용하여 텍스트에서 링크를 추출하는 방법이 있습니까? 본문에있는 링크를 추출하는 방법을 알고 싶습니다. 1) 내가 파이썬에서 가독성을 사용 https://github.com/gfxmonk/python-readability 2) 어떻게 든 기사의 실제 본문에 링크를 추출하기 위해 원래의 HTML 텍

2열

2답변

PDFBox 텍스트 추출에서 "긴"공백 유지

PDF에서 PDF를 추출하려면 PDFBox를 사용하고 있습니다. PDF는 매우 단순한 테이블 형식의 구조를 가지고 있으며 각 열은 매우 넓습니다. 모든 종류의 가로 공간이 하나의 공백 문자로 변환된다는 것을 제외하고는 실제로 잘 작동합니다. 더 이상 열을 구분할 수 없습니다 (열 사이의 공백은 열 사이의 공백처럼 보입니다). 일반적인 솔루션은 매우 어렵지만

268열

9답변

정규 표현식을 사용하여 부분 문자열을 추출하는 방법

두 개의 작은 따옴표가있는 문자열 '이 있습니다. 단일 인용 부호 사이에 내가 원하는 데이터가 있습니다. 다음 텍스트에서 "원하는 데이터"를 추출 할 수있는 정규식을 작성하려면 어떻게해야합니까? 자바 스크립트로 mydata = "some string with 'the data i want' inside";

0열

1답변

"예기치 않은 색 공간/R11"텍스트 및 이미지

System.ArgumentException을 가진 PDF 파일을 구문 분석하는 동안 사용자 코드에 의해 메시지 = 예기치 않은 색 공간/R11 출처 = itextsharp 스택 트레이스 처리되지 않은이었다. iTextSharp.text.pdf.parser.InlineImageUtils.ParseUnfilteredSamples에서 iTextSharp.tex

3열

1답변

PDF의 중첩 테이블에서 데이터 추출

단어 또는 엑셀 파일로 만든 몇 개의 pdf 파일이 있습니다. 테이블에있는 정보를 가져와야합니다. 문서의 텍스트가 이미지가 아니므로 pdfbox와 같은 도구를 사용하여 텍스트를 추출 할 수 있습니다. 내가 텍스트를 가지고있을 때 테이블 경계가 어디인지 알 수 없기 때문에 내가 속한 테이블의 셀을 알 수있는 방법이 없습니다. Iv'e는 abby 또는 soli

4열

4답변

Python을 사용하여 HTML에서 읽을 수있는 텍스트를 추출 하시겠습니까?

나는 html2text, BeautifulSoup 등의 utils에 대해 알고 있지만 문제는 또한 자바 스크립트를 추출하여 텍스트에 추가하여이를 구분하는 것이 어렵다는 점입니다. htmlDom = BeautifulSoup(webPage) htmlDom.findAll(text=True) 다른 방법으로는, 이들의 from stripogram import

0열

1답변

사용 가능한 용어 목록으로 용어 추출

용어 추출 알고리즘/서비스를 찾고 있습니다. 이것은 편집자를위한 제안 일 뿐이므로 추출 된 용어는 불완전 할 수 있습니다. 따라서 텍스트를 사용 가능한 용어 목록과 비교하고이 목록 외부의 용어를 제안하지 않습니다. 작업이 간단 해 보입니다. 각 용어에 대해 텍스트의 모양 수를 세고, 상위 용어를 필터링하십시오. 하지만 여기에 나는 수십만 개의 용어가 나열된

0열

1답변

형식이 지정되지 않은 문자열에서 데이터 추출

특정 부분을 추출하여 멋진 스프레드 시트 형식으로 만들 수 있습니다. 중요한 부분은 주소, 와드 번호, 평방 피트 및 가격입니다. 나는 PHP (초보자)에서 정말 복잡한 것을 시도 할 것이지만, 더 쉬운 방법이있을 것이라고 생각했다. 데이터는 다음과 같습니다 243-467 1402 E. Mt. Pleasant Ave. 50th Ward approxima