2016-08-29 13 views
-1

저는 Apache Nutch의 초보자이므로 검색하는 데 많은 시간을 할애합니다. Apache Nutch에서 각 URL의 상위 페이지 앵커를 가져와야합니다. 각 URL에 대한 데이터를 저장하는 LinkDatum, LinkDB 및 Inlink에 대해서는 읽었지만 이러한 클래스를 사용하여 새로운 ScoringFilter에 대한 플러그인을 추가하는 방법을 정확히 모릅니다. 도움이 될 것입니다.새로운 scoringFilter 플러그인을 작성하기 위해 apache nutch에있는 각 URL의 anchorText를 얻는 방법은 무엇입니까?

답변

2

아웃 링크에서 앵커 텍스트를 가져옵니다. outlink.getToUrl()은 URL을 문자열로 제공하고 outlink.getAnchor()은 앵커 텍스트를 제공합니다.