apache-tika

1열

1답변

나는 이러한 과정과 관련된 첨부 파일과 함께 일부 코스 데이터 (ID, 이름, 요약)를 색인합니다. 리터럴 필드를 전달하여 문서를 인덱싱하려면 Extract RequestHandler를 사용하고 있습니다. 이제 색인 생성 중에는 세 가지 조건이 있습니다. 코스에는 첨부 파일이 여러 개있을 수 있습니다. 첨부 파일 없음 물론 하나의 첨부 파일이있을 수 있습니

3열

4답변

OpenNLP를 사용하여 맞춤 모델을 만드는 방법은 무엇입니까?

엔티티 추출은 과 같습니다. 이름은입니다. 사용하는 문서는 OpenNLP Java API입니다. 적절한 이름을 추출하지 않습니다. 내가 여기 opennlp sourceforge link에 가능한 모델을 사용하고하는 것은 내가 뭘하려고 오전 public class tikaOpenIntro { public static void main(String[

0열

1답변

파이썬에서 특수 문자로 파일을 읽는 방법

아파치 티카를 사용하여 pdf, html, doc 파일을 크롤링하고 텍스트 파일에 구조화 된 텍스트를 저장했습니다.이 특수 문자 때문에 특수 문자가 포함되어 있습니다. 내가 UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid start byte , 어떻게 내

0열

3답변

호환되지 않는 종속성이있는 Java 라이브러리 사용

저는 Apache Tika 및 Apache Jena를 사용하려는 프로젝트에서 작업하고 있습니다. 그러나, 나는 다음과 같은 예외를 얻을 프로젝트를 실행하려고하면 java.lang.NoSuchMethodError: org.slf4j.spi.LocationAwareLogger.log Lorg/slf4j/Marker;Ljava/lang/String;ILjava/

1열

1답변

Solr에서 데이터 가져 오기 처리기를 사용하여 색인 생성 중 파일 이름 추출 (확장자 없음)

solr 4.3.0의 데이터 가져 오기 처리기를 사용하여 pdf, doc, ppt 등의 파일을 색인 할 수있었습니다. 내 데이터-config.xml 파일은 다음과 같습니다 -가 <dataConfig> <dataSource name="bin" type="BinFileDataSource" /> <document> <entity na

1열

1답변

Apache Tika를 사용하여 텍스트를 추출한 다음 보조 단어를 제거한 후 자주 단어를 가져 오는 것

Tika와 lucene을 사용하여 sample.pdf 파일의 텍스트를 추출한 다음 단어를 제거하려고 시도한 다음 텍스트에서 나머지 단어 (단어 제외)의 단어 수를 구합니다. . 내 sample.pdf는 포함 아래 This is java related information it contains java prg. 는 String[] stopwords ={"

2열

1답변

Apache Solr을 사용한 PDF 파일 내용 색인

Apache Solr과 상호 작용하기 위해 Solr의 php extension을 사용하고 있습니다. 데이터베이스에서 데이터를 인덱싱하고 있습니다. 외부 파일의 내용 (예 : PDF, PPTX)을 색인화하려고했습니다. 색인에 대한 논리은 다음과 같습니다 는 schema.xml 정의 다음과 같은 필드가 가정 : <field name="id" type="stri

0열

1답변

Tika를 Solr로 설정하기

나는 Solr에 다양한 종류의 문서 (Pdf, Doc, rtf, txt)를 색인으로 사용하고자합니다. 티카를 해결책으로 찾았습니다. 웹을 통해 호언 장담을했지만 ExtractingRequestHandler와 작동하도록 Docs/links를 찾지 못했습니다. 누구나 ExtractingRequestHandler를 사용하여 Tika를 구성하는 단계별 방법을 제공

0열

2답변

공백을 제외하고 파일 줄에서 모든 특수 문자를 제거하십시오.

일부 pdf 파일의 경우 tika를 사용하여 텍스트를 추출하고 텍스트 파일에 텍스트를 저장했습니다. 이제 opennlp 청크 파서를 사용하여 이러한 파일을 구문 분석하고 싶지만 일부 특수 문자 (일부 사각형 기호)가 단어 사이에 공백없이 포함되어 있기 때문에 파일 줄을 구문 분석하지 못했습니다. 텍스트 파일의 샘플 행 (그 사각형 타입 기호, 발음 구별 기

1열

1답변

Apache Tika 시작하기?

Apache Tika를 사용하여 웹 페이지의 텍스트 콘텐츠를 다운로드하는 자바 웹 크롤러를 프로그래밍하고 싶습니다.하지만 아파치 프로젝트를 사용하는 초보자이며 Tika를 프로그램에 정확히 통합하는 방법을 명확히하는 확실한 소스를 찾지 못했습니다. . 인터넷에서 수집 한 내용을 토대로 커맨드 라인에서 Maven을 사용하여 Tika를 만들었지 만 Java 프로