stormcrawler

    1

    1답변

    안녕하세요 여러분, 우리는 "이전 페이지"와 "새로운 페이지"로 구성되어 홈페이지의 인덱스를 만들기 위해 elasticsearch로 StormCrawler를 사용. 내 질문이 짧습니다 : 두 페이지 A (이전), B (신규) 페이지 X에 링크하면 B에서 X로 메타 데이터를 전달하는 방법? 내 질문에 길게 : 우리 홈페이지를 단계적으로 재 방문했습니다. 그래

    0

    1답변

    나는 Storm-crawler으로 시작하려하지만 Maven과 관련하여 다소 혼란 스럽다. Maven에도 익숙하지 않다. 방금에 대한 github 저장소를 복제하고 cd로 만든 다음 mvn 새로 설치를 실행 하시겠습니까? 또는 stormcrawler.net 시작 페이지에있는 모든 maven 명령을 실행하여 mkdir storm-crawler를 실행하십시오.

    0

    1답변

    스톰 크롤러를 구현하여 데이터를 크롤링하려고합니다. 우리는 URL에서 하위 링크를 찾을 수 있었지만 그 하위 링크의 컨텐츠를 얻고 싶습니다. 나는 그것을 얻는 방법을 안내 할 많은 자원을 찾을 수 없었다? 이와 관련하여 유용한 링크/웹 사이트가 도움이 될 것입니다. 감사.

    0

    1답변

    내 토폴로지에 tika 파서를 포함하고 싶습니다. 구성에서 jsoup.treat.non.html.as.error을 false으로 설정했으며 폭풍 크롤러 설명서에 설명 된대로 tika 토폴로지를 설정했습니다. 이 토폴로지와 builder.setSpout("spout", new MemorySpout(testURLs)); builder.setBolt("par

    0

    1답변

    stormcrawler의 최신 버전이 AJAX/동적 콘텐츠 구문 분석을 지원하고 elasticsearch에 저장한다는 사실을 알고 싶습니다. https://github.com/DigitalPebble/storm-crawler/issues/144 당신의 도움이 감사 주권

    0

    1답변

    StormCrawler를 라이브 크롤링에 사용하고 있습니다. ElasticSearch에 도메인을 삽입하고 크롤러가 제대로 크롤링 중이므로 각 도메인에 대해 개의 URls를 정의했습니다 (SimpleFetcherBolt의 Redis 사용). 시나리오 : 도메인을 삽입하면 StormCrawler가 크롤링을 시작합니다. 이제 ElasticSeeds에 새 도메인을

    2

    1답변

    스톰 크롤러가 설치된 인트라넷에 권한이 필요한 웹 사이트를 크롤링하고 싶습니다. 단순히 크롤러 구성을 수정하여이 작업을 수행 할 수 있습니까? 아니면 소스 코드의 클래스를 변경해야합니까? 그렇다면 어떤 클래스를 변경해야합니까?

    1

    1답변

    크롤러 페이지의 콘텐츠 길이를 메타 데이터로 문서에 저장하려고합니다. http.store.headers = true을 설정할 수는 있지만 서버의 http 헤더를 신뢰할 수는 없습니다. 그래서 우리는 ProtocolResponse #의 getContent(). (이하 "bytes_fetched"메트릭에 더하여) 메타 데이터 값과 길이 쓰기 FetchedBol

    0

    1답변

    Stormcrawler를 사용할 때 Elasticsearch에는 색인이 생성되지만 콘텐츠는 색인 생성되지 않습니다. https://github.com/DigitalPebble/storm-crawler.git 하는 elasticsearch-5.6.4 크롤러 conf.yaml을 사용하여 최신 '원산지/마스터'와 Stormcrawler가있다 indexer.url

    0

    1답변

    postgres sql 데이터베이스를 백엔드로 사용하여 stormcrawler를 설정하려고합니다. 그러나 폭풍 크롤 러를 시작하려면 테이블이 있어야하는지에 대한 문서가 없습니다. 어떤 테이블이 필요하며 어떤 컬럼이 있습니까? 아니면 자동으로 필요한 테이블을 만들 수있는 방법이 있습니까? 또한이 모드에서 크롤러를 시작하려면 어떻게해야합니까? 예를 들어 크롤러