scrapy

    0

    1답변

    저는 치료법을 배우고 있으며 작은 프로젝트가 있습니다. 그래서이 페이지에 일부 데이터가 있으면 모든 링크가 양식을 만들어 일부 데이터를 저장합니다. 예를 들어 http://example.com/some_page을 처리하면 다음 번에 건너 뜁니다. 그리고 내 임무는 다음 번에도 그것을 처리하는 것입니다. 이 페이지가 이미 처리되었으며이 경우 다른 데이터를 저

    -1

    1답변

    는 Python2.7에 가입하지만 악센트와 ñ 같은 스페인어 문자와 문제를 다루는입니다. 내가 한 때 문제가있는 respone 같은 : response.xpath("//*[contains(@id, 'content')]").css('table').css('tr').css('a') 그리고 반환, 예를 들어, 다음 줄 : 다음 페이지로 이동하지만 형식은 대한

    0

    1답변

    Windows 10에서 BashOnUbunty에서 Scrapy를 배우려고합니다. genspider 명령을 사용하여 스파이더 (yelprest)를 만든 다음 스파이더 파일을 만들어 다른 스파이더 (quotes_spider)를 직접 만들었습니다. (공식 자습서 https://doc.scrapy.org/en/latest/intro/tutorial.html을 따름

    0

    1답변

    저는 Scrapy로 신문 기사를 근근이 살아가고 있습니다. 웹 페이지의 텍스트를 하위 문자열로 묶는 데 문제가 있습니다. 기본 제공 re 및 re_first 기능을 사용하지 않고 검색을 시작할 위치를 설정할 수 있지만 설정할 방법을 찾지 못했습니다. 어디에서을 끝내야합니까? 다음은 코드를 다음과 import scrapy from spider.items i

    1

    2답변

    내 scrapy 프로젝트의 경우 현재 FilesPipeline을 사용하고 있습니다. 다운로드 한 파일은 URL의 SHA1 해시와 함께 파일 이름으로 저장됩니다. [(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc0

    0

    1답변

    여러 거미에서 되풀이 작업을 처리하는 함수를 만들려고합니다. 그것을 깨뜨리는 것처럼 보이는 요청을하는 것입니다. 이 질문은 this question의 후속 조치입니다. import scrapy import json import re class BaseSpider(scrapy.Spider): start_urls = {} def t

    0

    1답변

    많은 Xpath 답변을 볼 수 있지만 CSS는 표시하지 않습니다. 내가 필요한 모든 텍스트를 추출하는 데 성공했다. 그러나 완전히 래핑 된 것인가? 태그, 글꼴 세부 정보 등. this 사이트에서 몇 가지 역할 설명을 사용하고 있습니다. 내가 사용하고 코드는 Scrapy 튜토리얼에서 적응 - 나는 각각의 역할에 대한 오프 사이트의 모든 직무 관련 텍스트를

    0

    1답변

    My Scrapy 스파이더는 scrapinghub에서 호스팅됩니다. 실행 스파이더 API 호출을 통해 관리됩니다. 거미에서 호출로 변경되는 유일한 것은 시작 URL 목록입니다. 목록은 100 개의 URL에서 몇 천 개로 다양 할 수 있습니다. 이 시나리오에서 시작 URL을 업데이트하는 가장 좋은 방법은 무엇입니까? SH API에는 직접 옵션이 없습니다. M

    0

    1답변

    가 없습니다 : 링크 를이 내가 제목을 뽑아 사용하고있는 명령은 있지만, 그것은을 던지고있다 오류 : AttributeError Traceback (most recent call last) in() ----> 1 response.css('#intitule > div.nom_fugitif::text').extract_first() AttributeError:

    0

    1답변

    현재 내 크롤링 스파이더는 약 6.5 백만 개가 넘는 약 20,000 개의 제품 만 크롤링합니다. 각 카테고리는 스크랩되고 있지만 각 카테고리의 처음 5 페이지 만 스크랩되고있는 것으로 보입니다. 나는 그것이 내 linkextractor와 뭔가 있다고 생각하지만 잘 모르겠습니다. CrawlSpider : import scrapy from scrapy.sp