scrapy

0열

1답변

'치료'패키지를 사용하여 웹 사이트 (IMDB)의 이미지로 일부 데이터를 가져 오려고합니다. div 클래스에 image_URL이 있으면 영화 포스터로 데이터를 크롤링 할 수 있습니다. 그러나 그렇지 않으면 내 코드가 제대로 작동하지 않습니다. 이미지와 연관된 일부 데이터를 생략했습니다. image_URL처럼 수정하고 이미지를 잊어 버리고 데이터를 크롤링하고

0열

1답변

파이썬 & scrapy bashfile 연속 충돌

셋업 내가 rooms라는 Scrapy 거미, liverpool_rooms.py라는 파이썬 스크립트와 liverpool_rooms.csv라는 이전의 '실행'에서 기존의 거미 출력 파일을 가지고 . 문제 내가 start_liverpool.txt라는 이름의 bash는 파일에서 거미와 스크립트를 활성화 순차적으로 할 . Scrapy는 기존 파일에 덮어 쓰기는 할

0열

1답변

Python - 배열에 yield에서 scrapy.request의 응답을 추가하는 방법

sovereigns의 위키 목록에서 다른 주주의 채집을 수집하여 각 응답의 배열에 추가하려고합니다. 코드 아래의 allList에 [ 'nation']에 국가 이름이 있고 '인구 통계'에 인구수가있는 dicts 목록이 있어야합니다. 많은 감사합니다. # -*- coding: utf-8 -*- import scrapy import logging impor

1열

1답변

Scrapy에서 추가 add_xpath 호출없이 중첩 된 항목 로더를 사용하는 방법

Item Loaders을 사용하는 Scrapy 스파이더를 리팩토링하려고합니다. 하나의 XPath 표현식에서 추출한 데이터에서 여러 필드를 채우는 부분에 대해 알아 보았습니다. 간결성을 위해 Nested Loaders을 사용하고 싶습니다. 그것은을 추출 명령 scrapy parse --spider=apkmirror-spider http://www.apkmir

0열

2답변

새 파일이 S3에 도착하면 luigi 태스크를 실행하십시오.

새 오브젝트가 작성 시간에 따라 키가있는 임의의 간격으로 추가되는 버킷이 있습니다. 예를 들어 's3://my-bucket/mass/%s/%s/%s/%s/%s_%s.csv' % (time.strftime('%Y'), time.strftime('%m'), time.strftime('%d'), time.strftime('%H'), name, the_time)

1열

2답변

무한 스크롤링으로 데이터 추출하기 Ajax with Scrapy

저는 파이썬과 치료의 초보자입니다. 도움이 필요합니다. 제품 목록을 추출해야하지만, 그 사이트는 ajax로 text/html 요청을 실행하고 새로운 html로 새로운 제품을로드하는 끝에 "더 많은 제품보기"제품을 제공합니다. import scrapy from scrapy.http import Request class ProdSpider(scrapy.

1열

1답변

Scrapy로 쿠키를 모두 찾으십시오

나는 Scrapy로 웹 크롤러를 만들고 URL 목록을 방문하여 제 3자가 설정 한 쿠키를 포함하여이 도메인의 모든 쿠키를 반환합니다. 이 거미는 주어진 URL의 모든 링크를 다음과 별도의 텍스트 파일의 각 쿠키를 쓴다 : from scrapy.linkextractors import LinkExtractor from scrapy.contrib.spiders

1열

1답변

Scrapy는 : 다른 태그

내부 태그의 텍스트를 얻는 방법이 같은 HTML 단락이있다. 심지어 강한 태그의 일부. 나는 아래의 코드를 시도했지만 난 단지 "안녕하세요"를 얻을 : for text in response.css("div.entry-content"): yield { "parag": text.css("p::text").extract(), }

1열

1답변

스플래쉬 스플래시와 프록시 사용

스플래쉬와 함께 프록시 (proxymesh)를 사용하려고합니다. 나는 (관련) 코드를 PROXY = """splash:on_request(function(request) request:set_proxy{ host = http://us-ny.proxymesh.com, port = 31280, username = use

1열

1답변

구조가 다른 여러 웹 사이트에 대한 웹 크롤링

특정 데이터를 찾기 위해 구조가 다른 여러 웹 사이트에서 웹 크롤링을 수행하고 싶습니다. 그러나, 나는 내가 원하는 것을 찾을 수 있도록 몇 가지 키워드를 가지고있다. 좀 더 명확히하기 위해 나는 대학 웹 사이트에서 교수 이름 목록을 추출하여 주어진 대학 목록에 반복합니다. 여기서 키워드는 이름 앞에 "교수"또는 "교수"또는 "박사"라는 단어가 될 수 있으