scrapy

    21

    2답변

    나는 치료에서이 일을하는 방법에 대해 질문이 있습니다. 나는 물건 목록 페이지를 크롤링하는 거미가 있습니다. 항목이있는 목록 페이지가 발견 될 때마다 항목 데이터를 추출하고 항목을 생성하기 위해 호출되는 parse_item() 콜백이 있습니다. 지금까지 그렇게 좋았습니다. 모든 것이 잘 작동합니다. 그러나 각 항목에는 다른 데이터가 포함되어 있으며 해당 항

    1

    1답변

    나는 파이썬에서 크롤러 프레임 워크 "scrapy"를 사용하고 난 수입 JSON 아래에 주어진이 일을 위해] 파일을 코드에 JSON 형식으로 내 항목을 저장하기 위해 pipelines.py 파일을 사용 class AYpiPipeline(object): def __init__(self): self.file = open("a11ypi_dict.jso

    1

    2답변

    Scrapy의 튜토리얼 스크립트를 실행하는 동안 Python 2.7에 Scrapy의 최신 버전을 설치했고 (그래도이 버전 사용) 오류가 발생했습니다. 내가 실행 해요 코드는 다음과 같습니다 from scrapy.spider import BaseSpider class DmozSpider(BaseSpider): name = "dmoz.org"

    9

    2답변

    Python에서 Scrapy가하는 것과 비슷한 것을 얻을 수있는 Ruby 기반 도구는 무엇입니까? http://doc.scrapy.org/intro/overview.html

    7

    2답변

    파이썬 스쿠버를 사용하여 본문의 텍스트 만 긁어 내려고했지만 아직 행운을 얻지 못했습니다. 일부 학자가 여기 <body> 태그의 모든 텍스트를 긁어내는 데 도움이되기를 바랄 수도 있습니다.

    0

    1답변

    Y를 긁어 내려고! 그룹과 나는 한 페이지에서 데이터를 얻을 수 있지만 그게 전부입니다. 나는 몇 가지 기본 규칙을 가지고 있지만 분명히 옳지 않다. 누구든지 이걸 이미 해결 했어? class YgroupSpider(CrawlSpider): name = "yahoo.com" allowed_domains = ["launch.groups.yahoo.com"

    -1

    1답변

    나는 300 Megs XML 피드를 반복하기 위해 itertag가있는 XMLFeedSpider를 사용하고 있습니다. 큰 피드의 각 항목을 항목으로 저장하는 것 외에도 각 항목에는 크롤링 할 추가 링크가 있으며, 이번에는 html 페이지에 대한 링크입니다. HTML 페이지가 CrawlerSpider를 사용하여 크롤링되므로 해당 스파이더를 사용하여 큰 XML

    0

    1답변

    이의 내가이 예와 유사한 크롤링 거미 있다고 가정 해 봅시다 찾기 : scrapy.contrib.spiders에서을 CrawlSpider을 가져 scrapy에서 scrapy.contrib.linkextractors.sgml 수입 SgmlLinkExtractor 에서 규칙. class MySpider(CrawlSpider): name = 'examp

    0

    2답변

    나는 웹 사이트를 긁어 내기 위해 치료를 사용하고 있습니다. 긁어 내고 싶은 아이템 페이지는 다음과 같습니다 : http://www.somepage.com/itempage/&page=x. 여기서 x은 1부터 100까지의 숫자입니다. 따라서, 나는 이와 유사한 페이지에 대해 지정된 콜백 함수가있는 SgmlLinkExractor 규칙이 있습니다. 웹 사이트에는

    0

    2답변

    파이썬 스콥을 사용하여 스파이더를 실행하고 있는데, 이는 http://www.amazon.co.uk/gp/product/B003ZDXHSG/ref=s9_simh_gw_p23_d0_i3?pf_rd_m=A3P5ROKL5A1OLE&pf_rd_s=center-2&pf_rd_r=1NWN2VXCA63R7TDYC3KQ&pf_rd_t=101&pf_rd_p=46712853