2017-12-20 21 views
1

메타 태그 마녀 Nutch에서 메타 데이터를 색인하려고합니다. 나는 단계별 자습서 Nutch - Parse Metatags에 의해 단계를 follewed했지만 아무것도 색인이 생성됩니다.Nutch 색인 - 메타 데이터 색인 없음

단계별 튜토리얼과 같이 플러그인을 구성했습니다. 크롤링 프로세스를 실행할 때 15 개의 문서가 로그에 색인되어 있지만 읽을 때 나는 볼 수 없습니다. 색인이 작성되었지만 문서는 0 개입니다. 로그에 오류가 없습니다.

가 인덱서 : 문서의 수 색인, 삭제, 또는 생략 :

인덱서 : 인덱스 15 (추가/업데이트)

인덱서

: 2017년 12월 20일 12시 42분 58초에 완료, 경과 : 0시 0분 4초 나는 인덱스 메타 데이터 플러그인을 제거하고 문서 탄성에 writed하는 크롤링 프로세스를 다시 실행하지만 그들은 메타 태그가없는 경우

.

Nutch 및 Elastic으로 메타 태그를 크롤링하려면 어떻게해야합니까? 플러그인을 활성화 할 때 색인이 생성되는 이유는 무엇입니까?

탄성이있는 apache-nutch-1.13을 사용하고 있습니다.

답변

0

해결책을 찾았습니다. Elastic은 필드 이름 때문에 오류가 발생했습니다. 플러그인이 작성한 이름은 "메타 데이터. *"입니다. 신축성은 필드 이름에 포인트를 허용하지 않습니다. 이를 해결하려면 접두사 "metedata"없이 색인 메타 데이터를 구성해야합니다. 이 접두사는 Solr에만 해당됩니다.

<property> 
    <name>metatags.names</name> 
    <value>description,keywords</value> 
    <description>...</description> 
</property> 
... 
<property> 
    <name>index.parse.md</name> 
    <value>description,keywords</value> 
    <description>...</description> 
</property>