나는이 html 코드아름다운 수프
<a class="pageNum taLnk" data-offset="10" data-page-number="1"
href="www.blahblahblah.com/bb32123">Page 1 </a>
<a class="pageNum taLnk" data-offset="20" data-page-number="2"
href="www.blahblahblah.com/bb45135">Page 2 </a>
당신이 볼 수 있듯이, 링크 (HREF)이 무질서 있습니다에 대한 특정 링크를 추출하려고를 사용하여 HREF 얻기 때문에 내가 사용에 대한 패턴이없는 한 내가 BeautifulSoup를 사용하여 href를 수동으로 추출해야한다는 것을 의미합니다.
특히 href를 얻고 싶습니다.
다음 코드는 지금 사용할 수 있습니다. 당신이 볼 수 있듯이
from bs4 import BeautifulSoup
import urllib
url = 'https://www.tripadvisor.com/ShowUserReviews-g293917-d539542-r447460956-Duangtawan_Hotel_Chiang_Mai-Chiang_Mai.html#REVIEWS'
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
for link in soup.find_all('a', attrs = {'class' : 'pageNum taLnk'}):
print (link)
는, 나는 그런 data-page-number = "2"
또는 data-offset = "20"
로 태그 내에서 정보의 추가 비트 액세스 어쨌든 2 페이지를 위해 특별히 href가 정보를 얻기 위해 시도에 있는가 붙어있다.
아 .. 내가 왜 그 생각을하지 않았다! 감사합니다! ! –
@ Niche.P 코드를 업데이트하고 답변을 수락하십시오. –
yup, 나는 2 분 남았던 타이머를 기다리고있다. 감사 –