urllib 라이브러리를 사용하여 페이지를 가져옵니다. 일반적으로 최상위 도메인 이름이 &입니다. 해당 도메인 내의 모든 페이지에서 일부 정보를 추출하고 싶습니다. 따라서, 나는 xyz.com이있는 경우, 내가 xyz.com/about 등의 데이터를 가져 오기하려면 코드를 싶습니다 여기 내가 사용하고있는 작업은 다음과 같습니다도메인 내의 모든 페이지 읽기
import urllib,re
htmlFile = urllib.urlopen("http://www.xyz.com/"+r"(.*)")
html = htmlFile.read()
...............
이 암컷 그래도 나를 위해 트릭을 할 수 없습니다. 어떤 아이디어라도 감사합니다.
감사합니다. -T
재귀 적 웹 페이지 다운로더 인'wget'을 사용하여 웹 페이지 및 해당 웹 페이지에서 링크 된 모든 웹 페이지와 이들 웹 페이지에서 링크 된 모든 웹 페이지 등을 다운로드하십시오. –
또한 메모를 작성하여 가난한 사람의 웹 사이트에서 많은 양의 데이터를 가져와야하는지 확인하십시오. –
도움이되는 힌트를 주신 Thanks @ Li-aung. – user818190