2017-09-12 3 views
0

나는 웹 사이트를 긁어 내려고하고있다. 이것은 이것의 연장입니다 soup.findAll is not working for tablebeautifulsoup와 python을 사용하여 여러 페이지로 사이트를 긁을 수 있습니까?

필요한 데이터를 얻을 수 있었지만 사이트에는 하루에 여러 페이지가 있습니다. 언젠가 20 페이지와 33 페이지가 될 수 있습니다. 나는 마지막 페이지를 요소 How to scrape the next pages in python using Beautifulsoup 를 획득하여이 솔루션을 구현하려고했지만, 난이 사이트에서 호출기 DIV에 도착했을 때 나는 내가 모든 페이지에 긁어 수있는 방법이 형식

<a class="ctl00_cph1_mnuPager_1" href="javascript:__doPostBack('ctl00$cph1$mnuPager','32')">32</a> 
    <a class="ctl00_cph1_mnuPager_1">33</a> 

을 발견 긁어 할 페이지의 양이 매일 바뀌는 사이트? 페이지 변경으로 인해 페이지 URL이 바뀌지 않는 방식으로 에 있습니다. JS를 실행할 수 없습니다 그 때문에

+0

아마도 회피 방법을 사용하여 즉각적인 회신을 받기 위해 해당 사이트의 링크를 공개 할 수 있습니까? – SIM

답변

0
  1. BS4는
  2. 먼저 Scrapy를 사용하려고 할 수 있습니다, 언제이 문제를 해결하지 않으며이 answer
  3. 당신은
0
을 위해 셀레늄을 사용할 수 있습니다

나는 Selenium을 사용하는 법을 배울 것이다. BS4가 그 일을하지 않을 상황을 처리하는 것은 간단하고 효과적이다.

사이트에 로그인하고 검색 상자에 키를 입력 한 다음 화면의 버튼을 클릭하는 데 사용할 수 있습니다. 말할 것도없이, 브라우저로 무엇을하는지 볼 수 있습니다.

내가 BS4에서 무언가를하고 있어도 스크래핑 프로젝트의 진행 상황을 모니터 할 때도 사용합니다.