나는 webbrapping에 초보자입니다. 나는 치료 골격을 배우기 시작했습니다.웹 페이지를 스크래치 프레임 워크로 스크랩하는 방법은 무엇입니까?
나는 치료의 기본 자습서를 다뤘습니다. 이제 this 페이지를 스크랩하려고합니다. this 튜토리얼 당으로
, 전체 HTML 페이지를 얻는 하나가 다음 코드 작성해야 포함 :import scrapy
class ClothesSpider(scrapy.Spider):
name = "clothes"
start_urls = [
'https://www.chumbak.com/women-apparel/GY1/c/',
]
def parse(self, response):
filename = 'clothes.html'
with open(filename, 'wb') as f:
f.write(response.body)
이 코드 실행 벌금을. 그러나 나는 예상 된 결과를 얻지 못하고있다. 내가 clothes.html을 열 때
는 HTML 데이터 내가 브라우저에서 검사 할 때와 동일하지 않습니다. 많은 것들이 누락되었습니다. clothes.html
여기에 무슨 문제가 있는지 이해하지 못했습니다. 앞으로 나아가도록 도와주세요. 도움이 될 것입니다.
감사합니다.
브라우저의 검사 도구에는 사용자에게 HTML이 표시되지 않습니다. 그 순간에 존재하는 DOM을 보여줍니다. 아마도 JavaScript로 페이지가 수정되었을 것입니다. 소스보기 (Firefox 또는 Chrome에서 Ctrl + U)를 사용하면 치료와 동일하게 보입니다. – Thomas
오늘 많은 페이지가 동적이며 스스로 렌더링되는 경향이 있습니다. 헤드리스 브라우저 사용을 고려하십시오. – AndreyF
@ 토마스, 도와 주셔서 감사합니다. scrapy로 JS에 의해 수정 된 결과를 얻는 방법이 있습니까? – Amit