2011-03-15 4 views
1

Apache Tika를 사용하여 .tex 파일에서 텍스트를 추출하려면 어떻게합니까? 예제 파일은 http://www.tug.org/texshowcase/EulerGibbsDuhem.texTika를 사용하여 .tex 파일에서 텍스트를 추출하십시오.

입니다. Tika는 콘텐츠 형식을 application/x-tex으로 올바르게 감지 할 수 있지만 그 파일에서 아무 것도 추출하지 않습니다. 내가 명령을 시도

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex 

또한 다음 코드 :

File file = new File(fileName); 
Tika tika = new Tika(); 
String mimeType = tika.detect(file); 
pageContent = tika.parseToString(file); 

답변

0

티카는 .tex 파일 확장자를 감지 지원하지만 대한 파서 죄송합니다, 아직이 없다 .

.tex 파일을 구문 분석하기위한 훌륭한 Java 라이브러리 (이상적으로 Apache Licensed)가 있다면 Tika JIRA (https://issues.apache.org/jira)에서 새로운 개선 요청을 열 것을 제안합니다./browse/TIKA) 해당 라이브러리를 기반으로 Tex Parser를 요청하십시오.

+0

감사합니다. 그런 라이브러리를 찾으면 티켓을 열어 드리겠습니다. – nikhil500