2010-02-10 2 views
2

동일한 구조의 웹 페이지를 ~ 100 개 크롤링하려고합니다.하지만 필요한 이미지는 각 인스턴스마다 다릅니다.특정 html 요소에 대한 URL 배치를 크롤링하고 이미지를 검색하는 가장 좋은 방법은 무엇입니까?

이미지 태그는 다음 위치에 있습니다

#content div.artwork img.artwork 

및 그 결과의 src URL을 다운로드 할 필요가있다.

아이디어가 있으십니까? 나는 .txt 파일에있는 URL을 가지고 있으며 mac os x 상자에 있습니다.

답변

1

난 당신이 파일 만 쿼리처럼 '선택'을 활용할 수있는 방법을 잘 모르겠습니다 단지뿐만 아니라 일을 할 수있는 펄 정규식 :

for url in `cat urls.txt`; do wget -O- $url; done | \ 
    perl -nle 'print $1 if /<img.+?class="artwork".+?src="([^"]+)"/' 
+0

을 가장 좋은 방법은 .txt 인 그 wget과 먹이를 뭐죠 URL 파일? –

+0

bash를 사용하는 경우 위가 작동해야합니다. 다른 껍질에 대해서는 확실하지 않습니다. – ziya