scrapy

0열

3답변

좋아, 이건 약간의 고통입니다. 나는 파이썬으로 약간의 긁어 모으기를하고 있으며, 빈약하게 태그가 붙은 HTML의 몇 줄에서 주소를 얻으려고 노력하고있다. 다음 형식의 예는 다음과 같습니다 256-555-5555<br/> 1234 Fake Ave S<br/> Gotham (Lower Ward)<br/> 내가 좋아하는 것 만 1234 Fake Ave

0열

2답변

Scrapy : 다른 .cfg 파일 사용

기본적으로 Scrapy는 프로젝트 루트에서 scrapy.cfg를 사용합니다. 다른 .cfg 파일을 사용하도록 지시 할 수 있습니까?

13열

2답변

저장된 데이터에 Scrapy 스파이더를 재생하십시오.

일부 웹 사이트를 긁기 위해 Scrapy을 사용하기 시작했습니다. 나중에 모델에 새 필드를 추가하거나 구문 분석 함수를 변경하면 다운로드 한 원시 데이터를 오프라인으로 다시 재생하여 다시 다룰 수 있어야합니다. http://dev.scrapy.org/browser/scrapy/trunk/scrapy/command/commands/replay.py?rev=1

1열

2답변

Python 2.7에서 실행되도록 Scrapy 프레임 워크 설정

Scrapy에서 사용되는 Python 버전을 선택할 수 있습니까? 나는 Python 2.6과 함께 제공되는 Ubuntu 10.04에서 Scrapy를 실행 중이다. 내 컴퓨터에 Python 2.7이 설치되어 있고 이후 버전의 일부 기능을 활용하고 싶지만 2.7에서 실행되도록 Scrapy를 설정하는 방법을 모릅니다. 터미널에 "python"을 입력하면 Pyth

11열

3답변

치료 CrawlSpider를 중지하고 나중에 중단 된 부분부터 다시 시작할 수 있습니까?

크롤링 할 매우 큰 URL 목록이있는 CrawlSpider의 Scrapy가 있습니다. 나는 그것을 멈추고, 현재 상태를 저장하고, 다시 시작하지 않고 나중에 다시 시작할 수 있기를 원합니다. Scrapy 프레임 워크에서이를 수행 할 수있는 방법이 있습니까?

0열

1답변

하위 서버에서 서버를 검색

루트 서버에 http://my.root.iphttp://my.root.ip:6800에서 실행중인 치료 서버가 있습니다. http://scrapy.mydomain.com과 같은 하위 도메인에서 http://my.root.ip:6800 액세스 가능하게하고 싶습니다. 나는 가상 호스트 파일을 설정할 수 있고 내 서버의 문서 루트를 가리킬 수 있지만 실제로 서버에

0열

1답변

치료는 기본적으로 HTTP 1.0을 사용하고 있습니다.

Scrapy는 기본적으로 HTTP 1.0을 사용하고있는 것 같습니다. 요청을 보내기 위해 HTTP 1.1을 사용하도록하는 설정이 있습니까? 감사합니다. http://dev.scrapy.org/wiki/ScrapyRecipes에서

1열

1답변

Google에서 검색하여 특정 도메인에 대한 링크를 크롤링하는 방법은 무엇입니까?

나는 인도 노래의 가사를 가지고 있으며, 내가 작업하고있는 실험을 위해 발매 연도를 태그해야한다. 웹 사이트 (lyricsindia.net)에는 몇 년 동안이 가사의 철저한 데이터베이스가 있지만 불행히도 가사는 웹 사이트에서 검색 할 수 없습니다. 대신에 가사의 일부로 검색 문자열로 google을 검색하면 lyricsindia.net의 노래에 대한 링크가

-1열

1답변

Scrapy "parse"함수가 실행되고 있지 않습니다.

저는 우분투 11에서 치료법을 사용하기 시작했습니다. 단말은 단말 [email protected]:~/Desktop/ScrappyTest/basetest$ sudo scrapy crawl go4mumbai.com 2011-09-21 15:33:56+0530 [scrapy] INFO: Scrapy 0.12.0.2528 started (bot: basetes

2열

2답변

리디렉션 방지

사이트 (ASP로 작성)를 구문 분석하려고하는데 크롤러가 기본 사이트로 리디렉션됩니다. 하지만 내가 원하는 것은 리디렉션 된 URL이 아니라 주어진 URL을 구문 분석하는 것입니다. 이것을 할 수있는 방법이 있습니까? "REDIRECT = False"를 settings.py 파일에 추가하려고 시도했지만 성공하지 못했습니다. 다음은 크롤러에서 일부 출력입니다