2013-03-08 1 views
-1

다른 사이트에서 많은 양의 정보를 긁어 모으는 스크레이퍼를 만들기 위해 scraperwiki와 python을 사용하고 싶습니다. 단일 URL을 가리킨 다음 해당 사이트 내의 각 링크에서 데이터를 긁어내는 것이 가능한지 궁금합니다.사이트 내 여러 링크의 데이터 스크랩

예 : 사이트에는 각기 다른 프로젝트에 대한 정보가 각각의 개별 링크에 포함됩니다. 그 링크의 목록은 필요 없지만 그 안에 포함 된 실제 데이터는 필요합니다.

스크래퍼는 각 링크에서 동일한 속성을 찾고있을 것입니다.

아무에게도 어떻게 알 수 있습니까?

감사합니다.

+1

참조 http://stackoverflow.com/questions/2081586/web-scraping-with-python – user1929959

+0

@ user1929959 : 허용되는 대답은 그리 좋지 않습니다. – Blender

답변

1

urllib2로 BeautifulSoup을 확인하십시오.

from bs4 import BeautifulSoup 
import urllib2 

c = urllib2.urlopen(url) 
contents = c.read() 
soup = BeautifulSoup(contents) 
links = soup.find_all(a): 

그럼 그냥 이상의 것을 여러 번 수행하는 for 루프를 작성하고 당신이 준비되었습니다 :

http://www.crummy.com/software/BeautifulSoup/

(매우) 거친 예를 들어 링크 스크레이퍼는 다음과 같이 보일 것이다!