0
아마존 페이지에서 저자 이름을 추출하려고합니다. 문제는 같은 클래스의 태그가 너무 많아서 정확한 요소를 식별 할 수있는 다른 속성이 없다는 것입니다. 이제 저자명을 추출하고 싶습니다. 두 번째 span 태그에 있습니다. 우리가 할 수있는 find_all()을 사용하여 필요한 요소를 추출하는 방법
<div class="a-row a-spacing-none">
<span class="a-size-small a-color-secondary">by </span>
<span class="a-size-small a-color-secondary"><a class="a-link-normal a-text-normal" href="/Arthur-Conan-Doyle/e/B000AQ43GQ/ref=sr_ntt_srch_lnk_2?qid=1510823399&sr=8-2">Arthur Conan Doyle</a></span></div>
은 다음과 같습니다
soup=BeautifulSoup(self.driver.page_source,"html.parser")
titles=soup.find_all("h2",{"class":"a-size-medium s-inline s-access-title a-text-normal"})
authors=soup.find_all("span",{"class":"a-size-small a-color-secondary"})
for value in range(len(titles)):
d={}
d["Title"]=titles[value].text
d["Author"]=authors[value+2].text
title.append(d)