2017-11-10 12 views
0

Stormcrawler를 사용할 때 Elasticsearch에는 색인이 생성되지만 콘텐츠는 색인 생성되지 않습니다. https://github.com/DigitalPebble/storm-crawler.gitStormcrawler가 Elasticsearch로 콘텐츠를 색인하지 않습니다.

하는 elasticsearch-5.6.4

크롤러 conf.yaml을 사용하여 최신 '원산지/마스터'와

Stormcrawler가있다

indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical"

url 및 제목 필드는 색인되지만 콘텐츠는 색인되지 않습니다.

나는에서 줄리앙의 튜토리얼에 따라이 작업을 얻으려고 노력했다 : https://www.youtube.com/watch?v=xMCuWpPh-4A

모든 것은 내용을 제외하고, 노력은 Elasticsearch에 인덱싱되지 않습니다. 나는 이것이 약간의 설정 에러라고 느낀다. 그러나 나는 행운과 함께 많은 변화를 시도했다. 이제 도움을 구합니다.

감사합니다.

답변

1

콘텐츠의 색인이 생성되지 않았습니까? 내용 필드는 저장되지 않으며 ES_IndexInit.sh을 참조하십시오. 그러나 색인을 생성해야합니다. 이 스크립트를 저장하려면 init 스크립트를 수정하고 크롤링을 다시 실행하면 다른 필드와 동일한 결과를 얻을 수 있습니다. 인덱싱되었는지 테스트하려면 쿼리를 실행하여 결과에 어떤 영향을 미치는지 확인하십시오.

+0

줄리앙, 정확합니다. 내 용어가 정확하지 않았다. 실제로 인덱싱되었지만 저장되지는 ​​않습니다. 그것을 저장하기 위해 "store"를 추가했습니다 : true. –

+0

이 정보는 금색입니다. Romain에게 감사의 말을 전한다. –

+0

감사합니다. https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/README.md에 의견을 추가했습니다. –