모든 형식의 파일을 텍스트로 변환 할 수있는 변환기가있어서 처리하기가 더 쉬워졌습니다. 나는 파이썬 textract
라이브러리를 사용했다.
다음은 문서입니다. https://textract.readthedocs.io/en/stable/어떤 형식의 파일을 파이썬 3.6을 사용하여 텍스트 형식으로 변환 할 수 있습니까?
pip
을 사용하여 설치했으며 사용하려고했습니다. 그러나 오류가있어이를 해결하는 방법을 이해할 수 없습니다.
>>> import textract
>>> text = textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf', method='pdfminer')
File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
심지어 방법을 지정하지 않고 명령을 사용해 보았습니다.
>>> import textract
>>> text = textract.process('C:\Users\beta\Desktop\Projects Done With Specification.pdf')
File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
내가이 문제를 어떻게 해결할 수 있는지 알려 주시기 바랍니다. 가능하다면 나에게 해결책을 제안하십시오. textract
대신 편리한 다른 것이 있으면 여전히 나에게 제안 할 수 있습니다. 듣고 싶습니다.
: '/ 사용자/베타/데스크탑/프로젝트가 Specification.pdf으로 완료 C': "OR" 'C Specification.pdf으로 완료 \ 사용자 \ 베타 \ 바탕 화면 \ 프로젝트'를 그래서 유닉스의 [strings] (http://www.linfo.org/strings.html) 명령과 같이 파일에서 모든 문자열을 추출하고 싶습니까? – ChatterOne