스플래시를 사용하여 전체 웹 사이트를 크롤링 할 때 문제가 발생했습니다. 전체 대상 페이지를 렌더링합니다. 일부 페이지가 임의적으로 랜덤하지 않아 정보를 얻지 못했습니다. 그것은 렌더링 작업이 완료되었을 때 지원됩니다. 즉, 다른 렌더링 결과에서 전체 정보를 얻을 수는 있지만 렌더링 결과에서 정보의 일부만 가져옵니다.스플래시가 전체 페이지를 성공적으로 렌더링했는지 확인하려면 어떻게해야합니까?
yield SplashRequest(url,self.splash_parse,args = {"wait": 3,},endpoint="render.html")
settings:
SPLASH_URL = 'XXX'
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
# Enable SplashDeduplicateArgsMiddleware:
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
# Set a custom DUPEFILTER_CLASS:
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter
# a custom cache storage backend:
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
데이터를 가져 왔지만 전부는 아닙니다. wait 인수를 늘려보십시오. – Casper