2014-05-15 8 views
0

Python 용 Scraperwiki 모듈을 설치하려고했습니다. 그러나 오류를 생성합니다.Python 용 Scraperwiki를 설치하면 오류가 발생합니다. pdftohtml을 찾을 수 없습니다.

""UserWarning : 로컬 Scraperlib에는 pdftohtml이 필요하지만 pdftohtml은 PATH에서 찾을 수 없습니다. "을 설치해야합니다.

pdftohtml 파일을 가지고 있기 때문에 poppler를 살펴 보았지만 어떻게 작동하는지 모르겠습니다. 설치해야 할 파이썬 라이브러리 나 .exe 파일이 있는지. 내가 Windows에서 실행합니다.를 설치 가야합니까.

많은 감사

답변

0

당신이 scraperwiki.pdftoxml()를 사용하고자하지 않는 경우, 다음 경고가 적용되지 않습니다. 그것은 scraperwiki 패키지를 설치에서 당신을 멈추지 않는다 그러나

또한이 기능은 Windows에서 전혀 작동하지 않습니다. 이다; 그것은 differently on Windows to Linux처럼 동작하는 NamedTemporaryFiles을 사용합니다.

당신이 Windows에서 pdftohtml의 최신 버전을 해당 기능, 간단한 방법을 사용 하시겠습니까 경우

Calibre Portable을 다운로드하는 것입니다. (Sourceforge의 버전은 더 오래되었습니다.)

어디에서나 설치할 수 있습니다. 당신은 그것에서 약간 파일을 다만 필요로한다. 설치 한 위치에서 calibre.exe가 들어있는 폴더에서 freetype.dll, jpeg.dll, libpng12.dll, zlib1.dll 등의 작업 폴더에 DLLs 폴더와 함께 pdftohtml.exe 폴더가 필요합니다.

는 또한처럼, 대신 scraperwiki.pdftoxml()에 따라 코드가 필요합니다

def pdftoxml(pdfdata, options): 
    """converts pdf file to xml file""" 
    # lots of hacky Windows fixes c.f. original 
    with open('input.pdf', 'wb') as f: 
    f.write(pdfdata) 
    cmd = 'pdftohtml -xml -nodrm -zoom 1.5 -enc UTF-8 -noframes ' 
    if options: 
     cmd += options 
    cmd += 'input.pdf output.xml' 
    cmd = cmd + " > NUL 2>&1" 
    os.system(cmd) 
    with open('output.xml', 'r') as f: 
    return f.read() 

(나는 최근에 Windows에서 사용자에 대해이 작업을 얻으려고 노력했다, 나는 갱신이 코드가 포함 된 gist하겠습니다.)