Apache Tika 내에 application/octet-stream 유형의 구문 분석기가 있습니까? 나는 그것이 해석 할 수없는 스트림이라고 생각한다. ODS 문서, MS 문서 및 PDF 파일을 구문 분석하면됩니다. new Tika().parseToString(file);이면 충분합니다. 하지만 콘텐츠 유형이 감지되지 않으면 어떻게 될지 알 수 없습니다
당신의이 좀 도와 수 다음 내가 인디자인 문서의 꽤 무리 부하를 가지고 있고, 나는 그들을 통해, 텍스트 지혜를 검색 할 수 있어야합니다 . 나는이 파일을 열어 pdf를 만들고 검색을 할 수있는 자원이 없다. 즉, 필자는 텍스트 컨텍스트와 인덱스를 추출하거나 파일 자체를 직접 인덱싱 할 수 있기를 원합니다. 마지막으로 추가 처리를 위해 SOLR 엔진에 콘텐
.txt 파일에서 특정 정보를 읽고 c# 양식 응용 프로그램의 TextBox 안에 해당 특정 줄을 표시하고 싶습니다. .txt 파일 템플릿은 다음과 같습니다 인포 : 여기에 일부 문자 ... 정보 2 : 여기에 일부 문자 ... info3 : 일부 문자 Col1 Col2 Col3 Col4 Col5 Col6 Col7 Col8 Col9
<h1> ---
웹 페이지에서 데이터를 추출해야하는 학교 프로젝트를하고 있습니다. 정확하게하려면 HTML 또는 텍스트 데이터에서 사람이 읽을 수있는 내용을 추출하기 위해 라이브러리 또는 opensource 프로그램이 필요합니다. 웹 브라우저에서 텍스트 콘텐츠를 렌더링 한 것과 같은 것입니다. 나는 정규 표현식으로 html을 파싱하는 것이 텍스트를 추출하는 최악의 방법이라는
.rtf 형식의 세르비아어 - 영어 단어가 있으며이 문서에서 추출하여 데이터 구조에 넣어야합니다. 데이터베이스 작업을 알고 있지만이 상황에 적합한 지 여부는 알 수 없습니다. 예를 들어, 기울임 꼴 단어가 있고 데이터베이스에 넣는 방법을 모르겠다. (어쩌면 태그를 넣을 수 있습니까?) 서식있는 텍스트 (굵게 및 기울임 꼴)를 저장하기위한 다른 데이터 구조가
Apache Tika를 사용하여 .tex 파일에서 텍스트를 추출하려면 어떻게합니까? 예제 파일은 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex 입니다. Tika는 콘텐츠 형식을 application/x-tex으로 올바르게 감지 할 수 있지만 그 파일에서 아무 것도 추출하지 않습니다. 내가 명령을 시도 java -
이 페이지와 관련된 모든 피드 (RSS, 원자 등)를 추출하는 코드 스 니펫 (여기서는 언어가 중요하지 않음)을 찾고 있습니다. 그래서 입력은 URL이고 출력은 list of channels입니다. 페이지가 일부 정보 채널과 연결된 경우 중요 함을 의미합니다. 을 찾아야합니다. 나는 HTML 코드에서 무엇을 찾을 지, 어디에서 완전성을 찾아야 하는지를 묻고