text-extraction

    0

    1답변

    필자는 Python을 사용하여 자신의 응용 프로그램을 간단한 계정 관리자로 만들려고 노력해 왔습니다.이 응용 프로그램은 휴대 전화에서 SMS를 읽고 일부 정규식 패턴을 기반으로 정보를 추출합니다. 복잡한 정규 표현식 패턴을 작성한 후 https://pythex.org/에서 테스트했습니다. 예 : 나는 str.extract() 메소드를 사용하기보다는 하나의

    1

    1답변

    여러 줄 문자열과 메시지 본문에서 모든 성 (성 포함)을 가져 오려고했지만 어떻게 든 하나의 이름 만 가져옵니다. 예 : 안녕하세요 마크, 스테파니 엘, 폴 새 작업에 축하! 오늘 아침에 기분이 나아 졌으면 좋겠습니다. 내가 사용 정규 표현식 : /(?<=^hi)(\W*(\w+ *\w*)+)*/gmi 지금까지 내가 1 자막 그룹이 반복적으로 가능한 한

    0

    1답변

    반복되는 패턴없이 적용 날짜 목록이 있습니다. 가능하면 Available from 1951 until 1984; -> 1951 | 1984 Available from 1964 volume: 2 issue: 1 until 2002 volume: 20 issue: 4; -> 1964 | 2002 Available from 1970 issue: 24 unti

    0

    1답변

    나는 몇 개의 pdf 파일을 가지고 있는데, 나는 텍스트를 추출하고 싶다. 나는 pyPDF2, pdfminer와 같은 모든 라이브러리를 사용했다. tesseract와 imagemagick도 진행했습니다. Imagemagick은 변환 된 jpg 형식의 pdf 페이지 대부분을 검은 색으로 표시합니다.이 형식은 tesseract에서 읽을 수 없습니다. 텍스트/단

    0

    1답변

    에서 정규식을 사용하여 문자열을 추출하는 방법은 다음 문자열이 있습니다 String xmlnode = "<firstname id="{$person.id}"> {$person.firstname} </firstname>"; 어떻게 내가해야 할 부분은 {$} 방법 않고있는 {$STRING_I_WANT} 내부의 데이터를 추출하는 정규식을 쓸 수를 나는 그것을

    0

    1답변

    우리는 NLTK를 사용하여 HTML 페이지에서 텍스트를 추출하지만, 대부분의 간단한 텍스트 분석 만 원합니다. 단어 수. 파이썬을 사용하여 HTML에서 보이는 텍스트를 추출하는 방법이 있습니까? 가시적/보이지 않는 노드, 이미지의 대체 텍스트 등 일부 최소 수준에서 HTML (그리고 이상적으로는 CSS)을 이해하는 것이 추가적으로 유용 할 것입니다.

    1

    1답변

    PDF로 작업하고 iTexhSharp를 사용하고 있습니다. 지금까지 특정 영역에서 데이터를 가져올 수있었습니다. 하지만, 원하는 단어의 첫 번째 문자 (또는 숫자)의 코디네이터를 찾은 다음 해당 코디네이터에서 원하는 단어 주변을 자르기 위해 직사각형을 만들어보다 유연하게 만들고 싶습니다. 누구든지 저에게 짧은 모범을 줄 수 있다면 좋을 것입니다. 고맙습니다

    0

    1답변

    Android에서 PDFBox를 사용하여 문서에서 텍스트를 추출하는 데 문제가 있습니다. 그러나 구문 분석기가 잘 작동하고있는 것으로 보입니다 (또는 적어도, 그 의미를 해석하는 것입니다.) "파싱 된 COSObject"로 검색하면 유감스럽게도 관련 결과가 표시되지 않습니다. (일부 문서의 경우 logcat이 스팸되고, 이 putput을 끄십시오)). ge

    0

    1답변

    많은 줄이있는 텍스트 파일을 읽고 싶습니다. 각 라인의 시작 부분에서 , 전, 후, 후 혼수와 라인의 나머지 예 : 따옴표 사이의 문자열을 내가 원하는 것은 파일을 읽고, 첫 번째를 추출하는 것입니다 "CBL003","C3/C5 // <>SdcdUB","",0,1,"PfcdDT_gerergv","",0,"","",0,"","",0,"","",0,"","",

    1

    1답변

    에서 텍스트를 추출 할 수 없습니다 : [tr.findAll('td') for tr in table.findAll('tr',{'class': "js-file-line"})] [[<td class="blob-num js-line-number" data-line-number="1" id="L1"></td>], [<td class="blob-num js-