web-crawler

    0

    1답변

    나는 tutorial 다음에 Ubuntu 14.04에 Nutch 2.3 + ElasticSearch 1.4 + HBase 0.94를 배포하려고합니다. 내가 할 $NUTCH_ROOT/runtime/local/bin/nutch inject urls : 내가하고있는 URL을 주입 크롤링 시작하려고하면 InjectorJob: starting at 2017-10

    0

    1답변

    다음은이 solution입니다. 경쟁 탐지기를 실행할 때 탐지 된 경쟁 조건이 없습니다. ================== WARNING: DATA RACE Read at 0x00c42006c1e0 by goroutine 6: main.Crawl.func1() /task2.go:50 +0x53 Previous write at 0x00c42006c1e0 by

    0

    1답변

    첫 번째 파이썬 웹 크롤러를 만들려고했습니다 (thenewboston에서 배웠습니다). 쌍 사전해야 docs초 인수 attrs에 따라이 줄 for link in soup.findAll('a', {'atl '}): 에서 import requests from bs4 import BeautifulSoup def sportpoint_spider(max_p

    2

    2답변

    이 튜토리얼을 따르고 있습니다 https://www.practicalecommerce.com/Monitor-Competitor-Prices-with-Python-and-Scrapy 정확히 어떻게 말했는지 단계별로 설명하지만 내가 거미를 실행하는 부분에 도달하면 명령 NameError: global name 'TfawItem' is not defined 내가

    0

    1답변

    크롤링을 다시 시작할 수 있도록 설정할 수 있음을 이미 알고 있습니다. 하지만 재개 가능한 기능을 사용하여 크롤링 프로세스를 일시 중지 한 다음 프로그래밍 방식으로 다시 크롤링을 재개 할 수 있습니까? 예 : 정상적으로는 shutdown 크롤러의 종료 방법으로 크롤링하고 재개 가능한 매개 변수를 true으로 설정 한 다음 다시 크롤링을 시작할 수 있습니다.

    -2

    2답변

    Why do inner text is not active 는 Here is HTML code 는 [다음은 HTML 코드] <ul class="product"> <li class="product col-md-4 col-sm-4 col-xs-6 "><div class="product-header"> <a href="/so-mi-octopus-xanh-soc

    0

    1답변

    Nutch와 함께 크롤링 할 때 문제가 있습니다.이 " /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl Failed with exit value 1. " 사람이 나를 창에서 제대로 nutch를 사용하는 방법을 참조하기위한 지침을 제공 할 수

    0

    1답변

    하나의 함수에서 작은 웹 크롤러를 만들었습니다. upso_final입니다. 내가 print(upso_final()) 인 경우 제목, 주소, 전화 번호 등 총 15 개의 목록이 있습니다. 그러나 제목 만 출력하므로 변수 을 전역 문자열로 사용했습니다. 인쇄 할 때 제목이 하나뿐입니다. 마지막으로 실행됩니다. 나는 15 권의 책자를 모두 갖고 싶다. from

    0

    1답변

    파이썬 버전은 3.6.3입니다. 내 OS는 WIN7입니다. 지금은 아래 웹 사이트에서 한자를 추출하고 있어요 : https://crl.ptopenlab.com:8800/poem/show?3&%25E5%258F%2591%25E7%2594%259F&A718FCB2-CE47-4649-BB46-0E09B169FD59 내가 추출물 싶어 요소를 아래의 HTML 코드에

    0

    1답변

    SitemapSpider에서 긁어 모으는 URL 수를 얻으려고합니다. 나는 start_requests 방법을 오버라이드하려했지만 그것은 0을 출력합니다. 나는 sitemap_url에 수천 개의 URL을 포함하고 있습니다. 나는이 URL의 수를 얻고 싶다. 이것은 내가 시도한 것이지만 사이트 맵의 URL은 start_urls에 없다고 가정합니다. class