당신이 scraperwiki.pdftoxml()
를 사용하고자하지 않는 경우, 다음 경고가 적용되지 않습니다. 그것은 scraperwiki
패키지를 설치에서 당신을 멈추지 않는다 그러나
또한이 기능은 Windows에서 전혀 작동하지 않습니다. 이다; 그것은 differently on Windows to Linux처럼 동작하는 NamedTemporaryFiles
을 사용합니다.
당신이 Windows에서 pdftohtml
의 최신 버전을 해당 기능, 간단한 방법을 사용 하시겠습니까 경우
는 Calibre Portable을 다운로드하는 것입니다. (Sourceforge의 버전은 더 오래되었습니다.) 어디에서나 설치할 수 있습니다. 당신은 그것에서 약간 파일을 다만 필요로한다. 설치 한 위치에서 calibre.exe가 들어있는 폴더에서 freetype.dll
, jpeg.dll
, libpng12.dll
, zlib1.dll
등의 작업 폴더에 DLLs
폴더와 함께 pdftohtml.exe
폴더가 필요합니다.
는 또한처럼, 대신 scraperwiki.pdftoxml()
에 따라 코드가 필요합니다
def pdftoxml(pdfdata, options):
"""converts pdf file to xml file"""
# lots of hacky Windows fixes c.f. original
with open('input.pdf', 'wb') as f:
f.write(pdfdata)
cmd = 'pdftohtml -xml -nodrm -zoom 1.5 -enc UTF-8 -noframes '
if options:
cmd += options
cmd += 'input.pdf output.xml'
cmd = cmd + " > NUL 2>&1"
os.system(cmd)
with open('output.xml', 'r') as f:
return f.read()
(나는 최근에 Windows에서 사용자에 대해이 작업을 얻으려고 노력했다, 나는 갱신이 코드가 포함 된 gist하겠습니다.)