apache-tika

0열

1답변

Tika를 사용하여 패키지 구성 요소 파일의 메타 데이터를 추출하려고하는데 포함 된 패키지 파일의 메타 데이터 만 출력 할 수 있습니다. 예 : test_file.zip에는 test1.doc 및 test2.doc이라는 두 개의 파일이 있습니다. test1.doc 및 test2.doc에 대한 메타 데이터를 가져오고 싶지만 그렇게하는 방법을 알 수 없습니다.

0열

1답변

아파치 tika를 사용하는 동안 java를 사용하여 파일을 이동할 수 없습니다.

아파치 tika 라이브러리를 사용하여 파일을 텍스트로 변환하는 동안 parser.parse() 메소드에 입력 스트림으로 파일을 전달 중입니다. 입력 스트림은 finally 블록에서 성공적으로 닫힙니다. 그런 다음 파일의 이름을 바꾸는 동안 java.io의 File.renameTo 메서드는 false를 반환합니다. inputStream을 성공적으로 닫음에도

0열

1답변

Nutch 대신 Solr에 Apache Tika을 적용하면 어떤 이점이 있습니까?

Apache Nutch로 데이터를 크롤링하고 Apache Solr을 사용하여 색인을 생성하려고합니다. 콘텐츠의 일부로이 구문을 분석하고 싶습니다. 나는 Tutch를 Nutch, Solr 또는 둘 다에게 적용하는 것이 더 나은지 알아 내려고합니다.

1열

1답변

CrateData를 사용하여 1 백만 개의 PDF 파일을 인덱싱하고 저장하십시오.

우리는 수백만 개의 PDF 파일을 색인화하고 저장할 수있는 솔루션을 찾고 있습니다. 우리는 현재 Lucene + Tika를 사용하지만 PDF를 파일 시스템에 BLOB (ZOBB BLOB)로 저장합니다. Crate.io는 대량의 (수백만 개) PDF 파일을 색인화하고 저장하는 데 사용할 수 있습니까?

0열

1답변

Lucene + Tika에 액센트가있는 단어에 대한 결과를 반환 할 수 없습니다.

Lucene 및 Tika Apache 라이브러리 패키지를 구현하여 원하는대로 잘 작동하도록 관리했습니다. 하지만 나는 말로 악센트에 문제가 있으며 악센트가있는 단어에 대해서는 결과를 반환 할 수 없습니다. Indexador.java package br.com.ir; import org.apache.log4j.Logger; import org.apach

0열

1답변

tika 서버에서 페이지 수 정보를 얻는 방법은 무엇입니까?

tika 서버를 사용하여 doc 파일의 페이지 수를 배우고 싶습니다. 나는 tika 서버를 돌린다. java -jar tika-server-1.6.jar 메타 데이터를 얻기 위해 curl을 사용하십시오. curl -X PUT -T /tmp/test.doc http://localhost:9998/meta 출력은 다음과 같습니다 "Revision-Nu

0열

1답변

Apache Tika로 PDF에서 이미지 추출

Apache Tika 1.6은 PDF 문서에서 인라인 이미지를 추출 할 수 있습니다. 그러나, 나는 그것이 작동하도록 고투하고있다. 필자는 콘텐츠를 추출하고 모든 문서 (PDF가 아닐 수도 있음)에서 이미지를 개별적으로 추출하는 코드를 원합니다. 그런 다음 Apache UIMA 파이프 라인으로 전달됩니다. 사용자 지정 파서 (AutoParser에서 작성)를

0열

1답변

Solr - tika 중첩 엔티티를 사용하여 파일을 구문 분석 할 수 없습니다.

데이터베이스의 일부 데이터를 인덱싱하려고합니다. 데이터베이스 테이블에 표시된 각 페이지마다 링크 된 문서가 있습니다. 색인 생성은 일반적으로 작동하지만 Tika의 'text'필드는 로그에서 합당한 예외없이 완전히 무시되고 전혀 페치되지 않습니다. 내 데이터 congig : http://pastebin.com/XdwenPTE, 내 스키마 : http://pa

1열

1답변

Apache Tika Api 주어진 스트림을 사용합니다.

프로젝트에 Apache Tika 번들 종속성을 사용하여 파일 용 MimeTypes를 찾습니다. 몇 가지 문제로 인해 우리는 InputStream을 통해 알아 내야 만합니다. 그것은 실제로 주어진 InputStream을 표시/재설정하는 것이 보장됩니다. Tika 번들에는 코어 및 파서 API가 포함되어 있으며 PoifscontainerDetector, Zip

3열

1답변

추출 티카

와 XML의 전체 내용이 나는 티카와 xml 파일의 전체 내용을 추출하고 싶습니다. 즉, tika는 요소에서 텍스트를 가져 와서 태그를 버리지 않아야합니다. 내용의 OUPUT는 다음과 같이해야한다 : content: <?xml version="1.0" encoding="UTF-8" ?> <xml> <tag1>text</tag1> <ta