scrapy

0열

1답변

며칠 전 나는이 질문 : scrapy getting values from multiple sites 을 나는 WEBSITE2에 WEBSITE1에서 값을 전달하는 방법을 배웠다. 이것은 두 사이트의 수익률 정보를 허용합니다. 10 개의 다른 사이트와 같은 경우에는 해결되지 않습니다. 나는 함수에서 함수로 값을 전달할 수 있지만 바보 같다. 보다 효율적인 방법

0열

1답변

이상한 행동을하는 크롤러

나는 craigslist에서 다른 카테고리를 구문 분석하기위한 스크립트를 파이썬 스크립트에 작성했습니다. 나는 스크립트를 실행하는 이상한 것들을 발견했다. 그것은 흠 잡을 데없이 불평에 빠지게됩니다. 그러나, 문제는 다음과 같습니다. items.py을 비워두면 크롤링 프로세스에 아무런 영향을 미치지 않습니다. 제 질문은 제 치료 프로젝트에서 무엇을하고 있습

0열

1답변

탐색 div 내의 링크를 파이썬 스콥 셀렉터로 추출

filterCategoryLenethis webpage에있는 모든 링크를 추출하려고합니다. >> import requests >> from bs4 import BeautifulSoup >> url='http://uk.farnell.com/c/electrical' >> response = requests.get(url) >> soup = Beautif

0열

2답변

클래스에 공백이 포함되어있는 경우 xpath를 찾는 방법

사이트가 있으므로 클래스의 일부 정보를 추출해야하지만 클래스에 공간이 있어야 어떻게 할 수 있습니까? <div class ="product-item view-list " data-ht="2" data-pc="13"> 도움 주셔서 감사합니다. 당신이 CSS를 사용할 수 response.xpath('//div[contains(concat(" ", norma

0열

1답변

Django 관리 명령을 실행하는 데 사용되는 scrapy crawl

그는 내 치료 스크립트를 실행하기위한 django 관리 명령을 작성하려고합니다. 스크립트를 실행하는 동안 하지만, 다음과 같은 오류가 발생하고있어 File "manage.py", line 22, in <module> execute_from_command_line(sys.argv) File "C:\Users\Anaconda3\lib\site

0열

1답변

Scrapy - 특정 속성 값을 가진 링크에서 href를 추출합니다.

저는 Scrapy를 사용하고 있습니다. 난 a-carousel-card의 목록을 가지고 있는데, 두 번째 요소에서 href를 추출하려고합니다. 다음 코드는 찾은 첫 번째 링크 만 추출합니다. 이 카드의 유일한 차이점은 내가 목록의 두 번째 요소에서 HREF를 추출하는 방법에 대해 나는 매우 확실 해요 값 "1", "2"와 aria-posinset 속성 등

2열

3답변

치료는 하나의 깊이만을 가진 외부 링크를 따릅니다

foo.com을 크롤링하고 있다고 상상해보십시오. 가야 scrapy 원하는 내가 scrapy을 부탁 foo.com/hello foo.com/contact bar.com holla.com 모든 내부 링크뿐만 아니라 외부 링크에 대해 하나의 깊이를 크롤링하는 등 : foo.com 자체에 여러 가지 내부 링크를 가지고 있으며,이 같은 일부 외부 링크가

0열

1답변

Scrapy : None으로 항목을 초기화하는 방법? 예를 들어

, scrapy의 항목은 다음과 같습니다 class CrawlerItem(scrapy.Item): name = scrapy.Field() country = scrapy.Field() title = scrapy.Field() subject = scrapy.Field() ...... item = Crawl

0열

1답변

내가 scrapy에 새로운 오전 XML 출력

에 대한 Scrapy 항목을 직렬화와 나는 이런 식으로보고를 위해, 내 XML 출력에 속성을 추가 할 수 있도록하기 위해 내 Scrapy 항목을 직렬화하는 방법을 찾고 있어요 : 을 <field name='example'> i have some data scraped here </field> 예를 들어, "name"속성을 추가하는 방법을 찾으려고합니다.

0열

1답변

치료는 다음 페이지 URL을 따르지 않습니다. 이유가 무엇입니까?

이 웹 사이트를 스크랩하고 있습니다 : https://www.olx.com.ar/celulares-telefonos-cat-831, Scrapy 1.4.0. 내가 거미를 움직이면 "다음 페이지"부분에 도달 할 때까지 모든 것이 잘됩니다. 여기에 코드입니다 : # -*- coding: utf-8 -*- import scrapy #import time