현재 nutch 1.0에 대한 사용자 정의 플러그인을 작성하려고합니다. 이 플러그인은 HTML 데이터를 구문 분석하고 문서에서 관련 정보를 필터링합니다. 기본 플러그인 작동, HtmlParserResult 개체를 확장하고 구문 분석 할 때마다 실행됩니다.nutch 1.0 및 사용자 정의 플러그인을 사용하여 html 데이터 구문 분석
내 문제는 지금이 직면하고 있습니다 :
내가 충분히 좋은 구문 분석 nutch의 워크 플로우/pipline을 이해하지 않습니다. 나는 이것에 관한 정보를 nutch 사이트에서 찾지 못했습니다.
나는 DOM 구문 분석이 어떻게 수행되는지 이해하지 못한다. Nutch가 DOM 객체를 가지고 있고, HtmlParser 플러그인이 DOM 구문 분석을 수행하는 것을 볼 수 있는데, 아직도 이것이 최선의 방법을 이해하지 못했다.