2017-03-06 1 views
0

나는 아름다운 수프 + 파이썬을 사용하여 웹 사이트의 500+ 링크/하위 링크를 스크랩했습니다. 이제 elasticsearch에서이 URL의 모든 내용/텍스트를 색인 할 수 있기를 기대합니다. 탄력적 인 검색/키바나 스택으로 직접 인덱싱하는 데 도움이 될 수 있습니다.elasticsearch/kibana에 weburl의 색인 생성 콘텐츠

Google에서 검색을 시도하고 logstash를 찾았지만 단일 URL로 작동하는 것처럼 보입니다.

+0

filters 당신에게 가능성을 제공 할 수 참조 용으로 아래의 링크를 시도하십시오 : http://stackoverflow.com/questions/13647406/how-to-index-dump-of-html-files-to-elasticsearch :) – Anand

+0

또는 출력을 듣는 logstash 에이전트를 추가 할 수 있습니다 귀하의 크롤 러와 그것으로 탄성 먹이. – Adonis

+0

샘플 참조 코드를 제공해주세요. – Anand

답변

0

Logstash에 대한 참조를 참조하십시오 https://www.elastic.co/guide/en/logstash/current/getting-started-with-logstash.html

그렇지 않으면, URL 당 선으로, 파일에 크롤러 출력을 가하고의 예를 들어, 당신은 아래의 logstash의 설정을 가질 수있다,이 예제에서는 logstash는 읽 한 줄은 메시지로서 host1과 host2의 탄성 서버로 보내십시오.

input { 
    file { 
     path => "/an/absolute/path" #The path has to be absolute 
     start_position => beginning 
    } 
} 

output { 
    elasticsearch{ 
     hosts => ["host1:port1", "host2:port2"] #most of the time the host being the DNS name (localhost as the most basic one), the port is 9200 
     index => "my_crawler_urls" 
     workers => 4 #to define depending on your available resources/expected performance 
    } 
} 

지금은 물론, 당신은 당신의 크롤러의 출력의 일부 필터, 후 처리를하고 싶은, 그리고 Logstash을 위해 내가 할 수있는 것 같아요 codecs 및/또는