저는 BeautifulSoup 및 Requests API를 가지고 놀고있었습니다. 그래서 저는 깊이 2에 대한 링크를 따르는 간단한 긁는 도구를 쓸 것이라고 생각했습니다. 내가 긁고있는 웹 페이지의 모든 링크는 상대적입니다. (예 : 예 : <a href="/free-man-aman-sethi/books/9788184001341.htm" title="A Free Man">
) 그래서 그들을 절대적으로 만들려면 urljoin
을 사용하여 상대적 링크로 페이지 URL에 가입 할 것이라고 생각했습니다. TypeError : Python에서 BeautifulSoup로 split을 사용할 때 'NoneType'객체를 호출 할 수 없습니다.
<a>
태그에서 HREF 값을 추출했다 이렇게하려면하고 그것을 위해 내가
split
를 사용하는 것이라고 생각 :
#!/bin/python
#crawl.py
import requests
from bs4 import BeautifulSoup
from urlparse import urljoin
html_source=requests.get("http://www.flipkart.com/books")
soup=BeautifulSoup(html_source.content)
links=soup.find_all("a")
temp=links[0].split('"')
를이 다음과 같은 오류 제공 :
Traceback (most recent call last):
File "test.py", line 10, in <module>
temp=links[0].split('"')
TypeError: 'NoneType' object is not callable
갖는 문서를 제대로 읽으려고하기 전에 잠잠 해져서 이것이 내 목표를 달성하는 최선의 방법은 아니지만 왜 TypeError가 있는지 알고 있습니다.
하위 요소, 속성이 아 U니다. –