scrapy

0열

1답변

저는 치료법을 배우고 있으며 작은 프로젝트가 있습니다. 그래서이 페이지에 일부 데이터가 있으면 모든 링크가 양식을 만들어 일부 데이터를 저장합니다. 예를 들어 http://example.com/some_page을 처리하면 다음 번에 건너 뜁니다. 그리고 내 임무는 다음 번에도 그것을 처리하는 것입니다. 이 페이지가 이미 처리되었으며이 경우 다른 데이터를 저

-1열

1답변

Scrapy의 UTF8 인코딩

는 Python2.7에 가입하지만 악센트와 ñ 같은 스페인어 문자와 문제를 다루는입니다. 내가 한 때 문제가있는 respone 같은 : response.xpath("//*[contains(@id, 'content')]").css('table').css('tr').css('a') 그리고 반환, 예를 들어, 다음 줄 : 다음 페이지로 이동하지만 형식은 대한

0열

1답변

명령 프롬프트에서 항상 동일한 명령을 실행하는 치료

Windows 10에서 BashOnUbunty에서 Scrapy를 배우려고합니다. genspider 명령을 사용하여 스파이더 (yelprest)를 만든 다음 스파이더 파일을 만들어 다른 스파이더 (quotes_spider)를 직접 만들었습니다. (공식 자습서 https://doc.scrapy.org/en/latest/intro/tutorial.html을 따름

0열

1답변

Scrapy의 정규 표현식을 사용합니다.

저는 Scrapy로 신문 기사를 근근이 살아가고 있습니다. 웹 페이지의 텍스트를 하위 문자열로 묶는 데 문제가 있습니다. 기본 제공 re 및 re_first 기능을 사용하지 않고 검색을 시작할 위치를 설정할 수 있지만 설정할 방법을 찾지 못했습니다. 어디에서을 끝내야합니까? 다음은 코드를 다음과 import scrapy from spider.items i

1열

2답변

치료 파일 다운로드 사용자 정의 파일 이름 사용 방법

내 scrapy 프로젝트의 경우 현재 FilesPipeline을 사용하고 있습니다. 다운로드 한 파일은 URL의 SHA1 해시와 함께 파일 이름으로 저장됩니다. [(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc0

0열

1답변

요청을 생성하는 BaseSpider 클래스의 기능

여러 거미에서 되풀이 작업을 처리하는 함수를 만들려고합니다. 그것을 깨뜨리는 것처럼 보이는 요청을하는 것입니다. 이 질문은 this question의 후속 조치입니다. import scrapy import json import re class BaseSpider(scrapy.Spider): start_urls = {} def t

0열

1답변

태그를 사용하지 않고 모든 텍스트를 추출하기 위해 CSS를 Scrapy와 함께 사용 - 실패

많은 Xpath 답변을 볼 수 있지만 CSS는 표시하지 않습니다. 내가 필요한 모든 텍스트를 추출하는 데 성공했다. 그러나 완전히 래핑 된 것인가? 태그, 글꼴 세부 정보 등. this 사이트에서 몇 가지 역할 설명을 사용하고 있습니다. 내가 사용하고 코드는 Scrapy 튜토리얼에서 적응 - 나는 각각의 역할에 대한 오프 사이트의 모든 직무 관련 텍스트를

0열

1답변

API 호출을 통해 scrapinghub 호스팅 된 Scrapy 프로젝트의 시작 URL을 업데이트하십시오.

My Scrapy 스파이더는 scrapinghub에서 호스팅됩니다. 실행 스파이더 API 호출을 통해 관리됩니다. 거미에서 호출로 변경되는 유일한 것은 시작 URL 목록입니다. 목록은 100 개의 URL에서 몇 천 개로 다양 할 수 있습니다. 이 시나리오에서 시작 URL을 업데이트하는 가장 좋은 방법은 무엇입니까? SH API에는 직접 옵션이 없습니다. M

0열

1답변

Scrapy AttributeError가 'NoneType'개체가 어떤 속성 'CSS'나는 Scrapy 사용하여이 페이지에서 정보를 긁어하기 위해 노력하고있어

가 없습니다 : 링크 를이 내가 제목을 뽑아 사용하고있는 명령은 있지만, 그것은을 던지고있다 오류 : AttributeError Traceback (most recent call last) in() ----> 1 response.css('#intitule > div.nom_fugitif::text').extract_first() AttributeError:

0열

1답변

Scrapy Crawlspider는 카테고리의 처음 5 페이지 만 크롤링합니다.

현재 내 크롤링 스파이더는 약 6.5 백만 개가 넘는 약 20,000 개의 제품 만 크롤링합니다. 각 카테고리는 스크랩되고 있지만 각 카테고리의 처음 5 페이지 만 스크랩되고있는 것으로 보입니다. 나는 그것이 내 linkextractor와 뭔가 있다고 생각하지만 잘 모르겠습니다. CrawlSpider : import scrapy from scrapy.sp