2013-04-01 11 views
0

여기에 끝이없는 질문이 있습니다. 나는 Job site를 건너 가서 Job Description tag와 Skill 요구 사항을 찾아야했다. 기본적으로 사이트 전체에서 크롤링하는 방법을 알고 싶었습니다. 마찬가지로, test.com에서 test.com/a로 이동하십시오. .... ?? 기본적으로 페이지를 크롤링합니다.웹 사이트에서 가능한 모든 링크 찾기/Screen-Web Python으로 스크래핑하기

이것은 내 코드 내에서 검색하는 코드입니다. 사이트에서 가능한 모든 페이지를 찾아 링크를 얻어야합니다. 이것은 숙제가 아닙니다. 난 그냥

import urllib2 
import re 

html_content = urllib2.urlopen('http://www.ziprecruiter.com/job/Systems-  Engineer/b5452eab/?source=customer-cpc-indeed').read() 

matchDescription = re.findall('Bachelor', html_content); 
matchSkill = re.findall('VMware', html_content); 


print matchDescription 
print matchSkill 

if (len(matchDescription) and len(matchSkill))== 0: 
    print 'I did not find anything' 
else: 
    print 'My string is in the html' 

답변

0

Scrapy 또는 다른 기존 긁어 프레임 워크를 사용하는 것이 좋습니다 ... 측에이 일을하고 있습니다. 그렇지 않으면 lxml 또는 다른 HTML 구문 분석기를 사용하여 필요한 링크를 수동으로 찾아서 urllib 또는 이와 유사한 일부 수동 메커니즘과 입력 및 출력 데이터를 저장하는 일부 데이터 구조를 사용하여 크롤링해야합니다.