2017-05-13 13 views
0

Linkedin에서 다운로드 한 CV의 PDF를 구문 분석 할 수있는 도구를 작성하고 있습니다. 그러나 문서를 구문 분석 할 때 은 눈에 존재하지 않는 빈 행을 찾습니다.Ruby pdf-reader는 PDF를 파싱 할 때 아무 것도없는 빈 행을 추가합니다.

PDF 또는 PDF Reader에 문제가 있는지 궁금합니다. CV

enter image description here

스크립트

require 'pdf-reader' 

reader = PDF::Reader.new("CV.pdf") 

reader.pages.each_with_index do |page, page_num| 
    bits = page.text.split("\n") 

    bits.each_with_index do |bit, index| 
     puts bit 
    end 
end 

스냅 샷 파싱 출력

Senior Analyst 
September 2013 - August 2015 (1 year 11 months) 
    - Managed a team of analysts to drive operational improvement across all departments of a subsidiary 

    company, including a 33% increase in conversions on their e-commerce platform and a 8% decrease in 
    logistics costs within my first year 

출력 된 텍스트에서 문장의 중간에 빈 줄이 추가되었음을 알 수 있습니다.

PDF의 스크린 샷을 보면 PDF 판독기가있는 빈 행이 보이지 않기 때문에 이상하게 보입니다.

이 문제를 일으킬 수있는 경험이있는 사람이 있습니까?

답변

0

다른 라이브러리를 사용해 본 후에는 PDF가 아니고 인 것으로 나타났습니다.

그래서 나는 Yomu (https://github.com/Erol/yomu 참조)이라고 불리는 다른 보석을 사용하여이 문제를 예방했습니다.

출력의 예측 가능성이 높아지면 조금 느리지 만 수용 가능합니다.