2014-01-24 2 views
-1

아래 pdf 파일을 읽으려고합니다. 각각의 기사를 각각의 파일에 저장해야합니다.Python을 사용하여 pdf 내용 읽기

https://dl.dropboxusercontent.com/u/23092311/sample.pdf

기사는 하나 개 이상의 페이지에있을 수 있습니다. 나는 전체 PDF를 txt 파일로 변환하기 위해 PDFMiner를 사용했다. 하지만 여러 기사로 변환하는 방법을 모르겠습니다.

저는 Python을 처음 사용합니다. 각 기사를 개별적으로 추출하는 데 가장 좋은 방법이나 샘플 코드를 제공해주십시오.

+1

내 이메일은 다음과 같습니다. [email protected] 감사합니다 devnull – user4k

+0

안녕 devnull, 나는 당신의 답변을 기다리고 있습니다! 알려 주시기 바랍니다 – user4k

답변

0

나는 솔직 해. 필자는 PDFMiner를 사용한 적이 한번도 없었지만 이미 PDF를 텍스트 파일로 가지고 있다면 텍스트 파일을 문자열로 구문 분석 한 다음 split function을 사용하여 문자열을 "New 요크 타임즈 "제목? 나는 그것이 가능하다면 PDFMiner가 그 멋진 폰트를 읽을 수 있다고 가정한다. 당신이 제공 한 파일을 보면

, 그럴 수 같은 다음

reading = open('test.txt') 
full_paper = reading.read() 
split_paper = full_paper.split('Copyright 2014 The New York Times Company. All Rights Reserved.') 

split_paper는 인덱스 1, 2, 3, 4, 5에 당신의 기사를 포함한 배열 될 것이다, 6 (인덱스 0 초기 머리말 포함). 정확한 기사를 얻으려면 다른 문자열 정리를해야하지만 적어도 시작해야합니다.

의미가 있습니까?

+0

해당 텍스트 파일을 찾으십시오. https://github.com/kannan4k/Sentimental-Analysis-in-Python/blob/master/sample.txt – user4k

+0

초기 댓글이 업데이트되었습니다. 궁금한 점이 있으면 알려주세요. – Rooks103