text-extraction

2열

1답변

Apache Tika 내에 application/octet-stream 유형의 구문 분석기가 있습니까? 나는 그것이 해석 할 수없는 스트림이라고 생각한다. ODS 문서, MS 문서 및 PDF 파일을 구문 분석하면됩니다. new Tika().parseToString(file);이면 충분합니다. 하지만 콘텐츠 유형이 감지되지 않으면 어떻게 될지 알 수 없습니다

1열

2답변

구문 분석 인디자인 (.indd) 검색 인덱스 파일은

당신의이 좀 도와 수 다음 내가 인디자인 문서의 꽤 무리 부하를 가지고 있고, 나는 그들을 통해, 텍스트 지혜를 검색 할 수 있어야합니다 . 나는이 파일을 열어 pdf를 만들고 검색을 할 수있는 자원이 없다. 즉, 필자는 텍스트 컨텍스트와 인덱스를 추출하거나 파일 자체를 직접 인덱싱 할 수 있기를 원합니다. 마지막으로 추가 처리를 위해 SOLR 엔진에 콘텐

-3열

2답변

텍스트에서 읽기 특정 문자열로 시작하여 TextBox 양식으로 표시하는 라인 만 파일에 기록하십시오. (C#)

.txt 파일에서 특정 정보를 읽고 c# 양식 응용 프로그램의 TextBox 안에 해당 특정 줄을 표시하고 싶습니다. .txt 파일 템플릿은 다음과 같습니다 인포 : 여기에 일부 문자 ... 정보 2 : 여기에 일부 문자 ... info3 : 일부 문자 Col1 Col2 Col3 Col4 Col5 Col6 Col7 Col8 Col9 <h1> ---

-1열

2답변

NSStrings - 기본 용어 추출

내가 두 NSStrings가 나는 용어 추출의 기본 형태로 모두에 공통적 인 단어를 찾을 싶습니다 ... 이것에 대해 이동하는 방법을 어떤 아이디어? 로이 두 배열 각 배열에 찾을 조건에

0열

2답변

표현식 추출하기

표현식이 있고 파이썬 2.6에서 추출하고 싶습니다. 이 것 [a]+[c]*0.6/[b]-([a]-[f]*0.9) : ( '[a]', '+', '[c]', '*', '0.6', '/', '[b]', '-', '(', '[a]', '-', '[f]',

0열

2답변

웹 페이지에서 데이터 추출

웹 페이지에서 데이터를 추출해야하는 학교 프로젝트를하고 있습니다. 정확하게하려면 HTML 또는 텍스트 데이터에서 사람이 읽을 수있는 내용을 추출하기 위해 라이브러리 또는 opensource 프로그램이 필요합니다. 웹 브라우저에서 텍스트 콘텐츠를 렌더링 한 것과 같은 것입니다. 나는 정규 표현식으로 html을 파싱하는 것이 텍스트를 추출하는 최악의 방법이라는

-2열

2답변

Java에서 전자 메일 자동 추출

Java를 사용하여 텍스트 파일에서 잠재적 인 전자 메일 주소를 검색하려면 어떻게합니까?

2열

2답변

사전의 데이터 구조

.rtf 형식의 세르비아어 - 영어 단어가 있으며이 문서에서 추출하여 데이터 구조에 넣어야합니다. 데이터베이스 작업을 알고 있지만이 상황에 적합한 지 여부는 알 수 없습니다. 예를 들어, 기울임 꼴 단어가 있고 데이터베이스에 넣는 방법을 모르겠다. (어쩌면 태그를 넣을 수 있습니까?) 서식있는 텍스트 (굵게 및 기울임 꼴)를 저장하기위한 다른 데이터 구조가

1열

1답변

Tika를 사용하여 .tex 파일에서 텍스트를 추출하십시오.

Apache Tika를 사용하여 .tex 파일에서 텍스트를 추출하려면 어떻게합니까? 예제 파일은 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex 입니다. Tika는 콘텐츠 형식을 application/x-tex으로 올바르게 감지 할 수 있지만 그 파일에서 아무 것도 추출하지 않습니다. 내가 명령을 시도 java -

2열

1답변

웹 페이지에서 피드 추출

이 페이지와 관련된 모든 피드 (RSS, 원자 등)를 추출하는 코드 스 니펫 (여기서는 언어가 중요하지 않음)을 찾고 있습니다. 그래서 입력은 URL이고 출력은 list of channels입니다. 페이지가 일부 정보 채널과 연결된 경우 중요 함을 의미합니다. 을 찾아야합니다. 나는 HTML 코드에서 무엇을 찾을 지, 어디에서 완전성을 찾아야 하는지를 묻고