저는 수만 명의 기사가있는 다소 큰 자료를 만들고 있습니다. 나는 현재 PDFBox를 사용하여 다양한 성공을 이끌어 내고 있으며, 추출이 적절하게 성공했는지 여부를 프로그램 적으로 각 파일에서 확인하는 방법을 찾고 있습니다. 나는 현재 각각에 대해 맞춤법 검사기를 사용하려고 생각하고 있지만 언어가 다를 수 있으므로 어떤 언어를 사용하고 있는지 확실하지 않습니다. 점수가있는 자연 언어 감지도 아이디어 일 수 있습니다.pdf로 추출한 텍스트의 품질을 빠르고 손쉽게 검사 할 수있는 방법은 무엇입니까?
아, 그리고 어떤 방법으로도 Java로 멋지게 플레이하고, 빠르게 통합 할 수 있어야합니다.
PDFBox는 적극적으로 유지 관리되지 않으며 일부 최신 PDF 형식과 일부 유형의 이미지가 포함 된 PDF가 계속 표시됩니다. 필자가 찾은 유일한 라이브러리는 PDFTextStream입니다. PDFTextStream은 훌륭하지만 무료가 아닙니다. –
PDFTextStream의 정확성이 훨씬 뛰어나다는 것을 언급해야합니다. –