scrapy

21열

2답변

치료 - 항목을 추출하기 위해 페이지 구문 분석 - 항목 URL 내용을 따르고 저장

나는 치료에서이 일을하는 방법에 대해 질문이 있습니다. 나는 물건 목록 페이지를 크롤링하는 거미가 있습니다. 항목이있는 목록 페이지가 발견 될 때마다 항목 데이터를 추출하고 항목을 생성하기 위해 호출되는 parse_item() 콜백이 있습니다. 지금까지 그렇게 좋았습니다. 모든 것이 잘 작동합니다. 그러나 각 항목에는 다른 데이터가 포함되어 있으며 해당 항

1열

1답변

두 번 실행하면 크롤러가 중복을 생성합니까?

나는 파이썬에서 크롤러 프레임 워크 "scrapy"를 사용하고 난 수입 JSON 아래에 주어진이 일을 위해] 파일을 코드에 JSON 형식으로 내 항목을 저장하기 위해 pipelines.py 파일을 사용 class AYpiPipeline(object): def __init__(self): self.file = open("a11ypi_dict.jso

1열

2답변

Python의 "Scrapy"사용 중 오류

Scrapy의 튜토리얼 스크립트를 실행하는 동안 Python 2.7에 Scrapy의 최신 버전을 설치했고 (그래도이 버전 사용) 오류가 발생했습니다. 내가 실행 해요 코드는 다음과 같습니다 from scrapy.spider import BaseSpider class DmozSpider(BaseSpider): name = "dmoz.org"

9열

2답변

Ruby 대신 Scrapy를 사용 하시겠습니까?

Python에서 Scrapy가하는 것과 비슷한 것을 얻을 수있는 Ruby 기반 도구는 무엇입니까? http://doc.scrapy.org/intro/overview.html

7열

2답변

스킨 본문 전용

파이썬 스쿠버를 사용하여 본문의 텍스트 만 긁어 내려고했지만 아직 행운을 얻지 못했습니다. 일부 학자가 여기 <body> 태그의 모든 텍스트를 긁어내는 데 도움이되기를 바랄 수도 있습니다.

0열

1답변

치료 야후 그룹 거미

Y를 긁어 내려고! 그룹과 나는 한 페이지에서 데이터를 얻을 수 있지만 그게 전부입니다. 나는 몇 가지 기본 규칙을 가지고 있지만 분명히 옳지 않다. 누구든지 이걸 이미 해결 했어? class YgroupSpider(CrawlSpider): name = "yahoo.com" allowed_domains = ["launch.groups.yahoo.com"

-1열

1답변

큰 XML 피드 링크를 따르는 치료

나는 300 Megs XML 피드를 반복하기 위해 itertag가있는 XMLFeedSpider를 사용하고 있습니다. 큰 피드의 각 항목을 항목으로 저장하는 것 외에도 각 항목에는 크롤링 할 추가 링크가 있으며, 이번에는 html 페이지에 대한 링크입니다. HTML 페이지가 CrawlerSpider를 사용하여 크롤링되므로 해당 스파이더를 사용하여 큰 XML

0열

1답변

Scrapy CrawlSpider 후 처리 : 평균

이의 내가이 예와 유사한 크롤링 거미 있다고 가정 해 봅시다 찾기 : scrapy.contrib.spiders에서을 CrawlSpider을 가져 scrapy에서 scrapy.contrib.linkextractors.sgml 수입 SgmlLinkExtractor 에서 규칙. class MySpider(CrawlSpider): name = 'examp

0열

2답변

치료 - 목록 페이지가 없지만 각 항목 페이지의 URL을 알고 있습니다

나는 웹 사이트를 긁어 내기 위해 치료를 사용하고 있습니다. 긁어 내고 싶은 아이템 페이지는 다음과 같습니다 : http://www.somepage.com/itempage/&page=x. 여기서 x은 1부터 100까지의 숫자입니다. 따라서, 나는 이와 유사한 페이지에 대해 지정된 콜백 함수가있는 SgmlLinkExractor 규칙이 있습니다. 웹 사이트에는

0열

2답변

스크립트를 사용하여 매개 변수화 된 URL 스크랩

파이썬 스콥을 사용하여 스파이더를 실행하고 있는데, 이는 http://www.amazon.co.uk/gp/product/B003ZDXHSG/ref=s9_simh_gw_p23_d0_i3?pf_rd_m=A3P5ROKL5A1OLE&pf_rd_s=center-2&pf_rd_r=1NWN2VXCA63R7TDYC3KQ&pf_rd_t=101&pf_rd_p=46712853