2013-07-23 3 views
1

Apache Tika를 사용하여 웹 페이지의 텍스트 콘텐츠를 다운로드하는 자바 웹 크롤러를 프로그래밍하고 싶습니다.하지만 아파치 프로젝트를 사용하는 초보자이며 Tika를 프로그램에 정확히 통합하는 방법을 명확히하는 확실한 소스를 찾지 못했습니다. . 인터넷에서 수집 한 내용을 토대로 커맨드 라인에서 Maven을 사용하여 Tika를 만들었지 만 Java 프로그램의 Parser와 같은 Tika 클래스 (?)를 사용하려면 여기에서 어디로 가야 할 지 모르겠습니다. 나는 이클립스를 사용하고 있는데, 차이가 있다면 - 이클립스 용 Maven 플러그인을 설치했는데 정확히 어떻게해야할지 모르겠다 ... "import ..."라인이 필요한가요? 제 "초보자"질문을 용서해주십시오. 그러나 사용할 티카 준비에 대한 단계별 가이드는 감사하겠습니다.Apache Tika 시작하기?

답변

5

처음에는 프로젝트에 Tika를 포함시키는 방법을 다루는 Apache Tika getting started guide을 읽어 보시기 바랍니다. (이것은 타사 항아리를 자신의 프로젝트에 포함시키는 기본적인 지식이 있다고 가정합니다. 그렇지 않다면 튜토리얼을 읽어야합니다.)

프로젝트에서 Tika을 시작하는 가장 쉬운 방법은 via the Tika Facade class입니다. 이것은 다양한 소스의 모든 정보를 검색, 일반 텍스트 문자열로 구문 분석 및 판독기를 통해 xhtml로 구문 분석하는 데 사용할 수있는 단일 클래스를 제공합니다. 모든 기본 사항이 있습니다.

고급 사용을 위해서는 Parser API pageContent Detection page에 나와있는 정보를 따르는 것이 좋습니다. Tika Examples on parsing with the AutoDetectParser을 따라갈 수도 있습니다. 그럴 경우 원하는 것을 할 수 있습니다. 그렇지 않으면 browse the annotated list of Tika examples with explanations을 시작하는 것이 좋습니다!