itextsharp를 사용하여 pdf 파일에서 단락 텍스트를 가져 오는 논리는 무엇입니까? 저는 PDF 만 텍스트 실행과 해당 텍스트의 실행이 어떤 단락과 관련되어 있는지, 그리고 알고 있는지 알고 있습니다. 거기에 어떤 <p>
태그 또는 pdf ..에서 단락을 결정하는 다른 태그가 없습니다 그러나 내가 좌표의 단락을 구축하기 위해 텍스트의 실행의 좌표를 얻으려고했지만 운이 없다 :. 내 코드 스 니펫은 여기에있다 :itextsharp를 사용하여 PDF에서 텍스트 단락을 얻으십시오
private StringBuilder result = new StringBuilder();
private Vector lastBaseLine;
//to store run of texts
public List<string> strings = new List<String>();
//to store run of texts Coordinate (Y coordinate)
public List<float> baselines = new List<float>();
public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
{
Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
if ((this.lastBaseLine != null) && (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]))
{
if ((!string.IsNullOrEmpty(this.result.ToString())))
{
this.baselines.Add(this.lastBaseLine[Vector.I2]);
this.strings.Add(this.result.ToString());
}
result = new StringBuilder();
}
this.result.Append(renderInfo.GetText());
this.lastBaseLine = curBaseline;
}
는 몸은이 문제 ??
이 PDF 태그가 지정된 PDF가 .. 당신을 도와 드릴까요? 그렇지 않은 경우 어떤 단락에 속해 있는지 (이미 발견했는지) 쉽게 확인할 수있는 방법은 없습니다. –
당신의 respone에 대한 @BrunoLowagie 고맙습니다, PDF는 태그가 PDF 파일이 아닙니다. 태그가 지정되지 않은 PDF에서 단락을 추출하는 솔루션이 있습니까 ??? –
100 % 증명 솔루션이 없으며 결함 비율이 더 크거나 클뿐 아니라 휴리스틱입니다. – mkl