저는 튜토리얼을 읽지 않고 단순히 파이썬을 처음 접했을뿐입니다. 실제로 실제 프로젝트를 완료하는 것이 더 좋은 방법이라고 생각합니다. 그러나, 내가 꽤 도움 (필요하게 될 것입니다 의미합니다. 지점에 지금라이브러리가 내장 된 파이썬 기본 웹 스크래퍼 만들기 - Python 초보자
을
프로세스가 간소화되지 않도록 내가 어떤 제 3의 라이브러리없이 웹 스크래퍼를 만들기 위해 노력하고있어 나를 위해, 그리고 내가 여러 온라인 리소스를 통해 보았다. 내가 뭐하는 거지 알고 있지만 이는 모두가 어떤 일에 대해 나를 혼란 남아있다.
있는 HTML이 다음과 같이 보입니다,
<html>
<head>...</head>
<body>
*lots of other <div> tags*
<div class = "want" style="font-family:verdana;font-size:12px;letter-spacing:normal"">
<form class ="subform">...</form>
<div class = "subdiv1" >...</div>
<div class = "subdiv2" >...</div>
*lots of other <div> tags*
</body>
</html>
내가 원하는을 스크래퍼를 추출하는 <div class = "want"...>*content*</div>
d html 파일에 저장하십시오.
나는 이것에 대해 어떻게 생각해야하는지에 대한 매우 기본적인 생각을 가지고있다.
import urllib
from urllib import request
#import re
#from html.parser import HTMLParser
response = urllib.request.urlopen("http://website.com")
html = response.read()
#Some how extract that wanted data
f = open('page.html', 'w')
f.write(data)
f.close()
대단히 감사합니다.
당신을 위해 모든 것을하는 웹 스크래핑 라이브러리를 사용하고 싶지는 않지만 ... [BeautifulSoup'] (http://www.crummy.com/software/BeautifulSoup/bs4/) 사용을 고려하고 싶을 수도 있습니다. doc /). HTML이 모두 현대적이고 유효하다면 stdlib에있는 것이 좋겠지 만, 버릇없는 실제 페이지를 다루기를 원한다면 BS는 당신의 삶을 훨씬 쉽게 만듭니다. (단순한 경우조차도 조금 더 간단합니다. 그러나 큰 문제는 아닙니다.) – abarnert