0
injector, generator, fetcher 및 dbUpdater와 같은 유용한 문서를 찾을 수 없습니다. 나는 그것이 무엇을하는지 이해할 필요가있다. Nutch를 사용하고 있습니다. 2.2.1Apache Nutch의 parserJob 유틸리티는 무엇입니까?
injector, generator, fetcher 및 dbUpdater와 같은 유용한 문서를 찾을 수 없습니다. 나는 그것이 무엇을하는지 이해할 필요가있다. Nutch를 사용하고 있습니다. 2.2.1Apache Nutch의 parserJob 유틸리티는 무엇입니까?
두 버전 모두 1.x/2.x 구문 분석은 동일한 개념을 나타냅니다. 이전에 가져온 웹 페이지에서 유용한 정보를 추출합니다.
물론 "유용한"은 매우 광범위한 용어입니다. 좀더 Nutch에 초점을 맞춘보기에서 이것은 일반적으로 모든 구문 분석 필터 플러그인을 실행하는 것을 의미합니다 (각 플러그인은 특정 작업을 수행하는 책임이 있습니다). 예를 들어, parse-metatags
플러그인은 특정 (구성된) 메타 태그를 추출하여이를 백엔드에 저장할 수 있도록합니다. 기본적으로 Nutch는 웹 페이지의 텍스트 콘텐츠와 제목, 헤더 등의 추가 정보를 추출하려고 시도합니다.