2014-11-07 5 views
0

먼저 감사드립니다. 정말 고맙습니다.Python 웹 페이지 찾기 완료 솔루션

  1. 그래서 내가 (매 시간마다 주위에) 오히려 지속적으로 URL을 소량 크롤링 필요에있어 특정 데이터

  2. PHP는 사이트를 크롤링 된 데이터로 업데이트됩니다 얻을 나는 변경할 수 없습니다 Best solution to host a crawler? 괜찮을 것 같다 당신이 확장 할 뭔가를 원한다면 클라우드 서비스를 사용하는 상승 여력이있다 :

것을 나는이 솔루션을 읽었습니다.

나는 나에게이 모든 일을 설정하지 않고이 문제에 대한보다 완벽한 솔루션이 있다면 나는 와인, 이제도

Scrapy

의 존재를 알고 있어요. 그것은 내가 해결하려고 노력하고있는 매우 구별되는 문제가 아니며 시간을 절약하고 좀 더 완전한 해결책이나 지침을 갖고 싶습니다. 더 구체적인 도움을 얻으려면이 스레드의 담당자에게 문의해야하지만 그렇게 할 수는 없습니다. ( https://stackoverflow.com/users/2335675/marcus-lind)

현재 개인용 컴퓨터에서 Windows를 실행 중이고 Scrapy를 사용하는 것이 설치 문제와 같은 일로 쉬운 일은 아닙니다.

이 특정 작업을 피할 방법이 없다고 생각하십니까? 그렇지 않은 경우, 예를 들어 Python/Scrapy 또는 Ruby On Rails와 함께 사용해야하는지 어떻게 알 수 있습니까?

답변

0

얻으려고하는 데이터가 비교적 잘 구조화 된 경우 Kimono 또는 import.io와 같은 타사 서비스를 사용할 수 있습니다.

저는 파이썬에서 기본 크롤러를 매우 쉽게 설정할 수 있습니다. Scrapy (악몽 의존성 때문에 내 Windows 컴퓨터에서 잘 돌아 가지 못함)를 포함한 많은 것을보고 난 후, 헤드리스 브라우징을 위해 PhantomJS가 구동하는 Selenium의 Python 패키지를 사용하여 해결했습니다.

크롤링 기능을 정의하면 코드 줄이 약간만 걸릴 수 있습니다. 이것은 약간 초보적인 일이지만, 직선적 인 파이썬 스크립트처럼 간단하게 처리하기를 원한다면, 이와 같은 것을 할 수 있으며, 어떤 조건이 참이거나 스크립트를 죽일 때까지 실행되도록 할 수 있습니다.

from selenium import webdriver 
import time 
crawler = webdriver.PhantomJS() 
crawler.set_window_size(1024,768) 
def crawl(): 
    crawler.get('http://www.url.com/') 
    # Find your elements, get the contents, parse them using Selenium or BeautifulSoup 
while True: 
    crawl() 
    time.sleep(3600) 
+0

많은 감사! 글쎄, 적어도,이 솔루션이가는 한, URL을 많이 커버하는 것은 꽤 느릴 것입니다 (어쩌면 충분히 빠를 것이지만 체크하지 않았을 것입니다). import라는 서비스를 발견했습니다 .io 그리고 지금 조사 중입니다. 내 결론을 게시 할게요 다시 한 번 감사드립니다. – eddr