2013-04-15 3 views
0

나는 london-gazette.co.uk 사이트에서 링크를 가져 오기 위해 ScraperWiki를 사용하고 있습니다. 코드를 편집하여 맨 아래에 여러 개의 개별 검색 URL을 붙여 넣을 수 있는데,이 둘은 모두 동일한 데이터 저장소에 대조됩니다.하나 이상의 URL에서 링크 긁기

현재로서는 새로운 URL에 붙여 넣기 만하면됩니다. 실행하면 새 데이터가 이전 데이터의 뒷면에 추가되지만, 속도를 높이고 스크레이퍼를 얻는 방법이 있는지 궁금합니다. 한 번에 여러 URL을 작업 할 수 있습니까? 의 URL의 난 '통지 코드를'변화 될 부분 : issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1

죄송합니다 - 새로운 스택 오버플로 내 코딩 지식이 거의 존재하지 않는,하지만 코드가 여기에있다합니다 : https://scraperwiki.com/scrapers/links_1/edit/

+0

........ 누구나? –

+0

내 대답은 당신이 원했던 것입니까 아니면 다른 것을 찾고 있습니까? –

+0

죄송합니다. 어떻게 든 이메일 알림을 사용 중지했습니다. 고마워,하지만 작동하지 않았다. 그것은 당신의 예제 스크레이퍼에 효과가 있었지만, URL의 통지 코드 섹션을 변경하기 위해 그것을 적용하려고했을 때 나는 아무데도 가지 못했습니다. –

답변

0

당신이 연결 스크레이퍼 to는 비어있는 것처럼 보이지만 Rebecca Ratcliffe가 만든 원래 스크레이퍼를 보았습니다. 당신이 동일한 경우, 당신은 단지 그들을 통해 목록과 루프에 URL을 넣어야 할에 대한 루프 A :

urls = ['/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1', 
'/issues /2013-01-15;2013-01-15/all=NoticeCode%3a2453/start=1', 
'/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2462/start=1', 
'/issues/2012-02-10;2013-02-20/all=NoticeCode%3a2441/start=1'] 

base_url = 'http://www.london-gazette.co.uk' 
for u in urls: 
    starting_url = urlparse.urljoin(base_url, u) 
    scrape_and_look_for_next_link(starting_url) 

그냥 내가 복사하고 그에 따라 적응 this scraper를 보라.