스플래시를 사용하여 전체 웹 사이트를 크롤링 할 때 문제가 발생했습니다. 전체 대상 페이지를 렌더링합니다. 일부 페이지가 임의적으로 랜덤하지 않아 정보를 얻지 못했습니다. 그것은 렌더링 작업이 완료되었을 때 지원됩니다. 즉, 다른 렌더링 결과에서 전체 정보를 얻을 수는 있지만 렌더링 결과에서 정보의 일부만 가져옵니다. yield SplashRequest(u
로컬 스플래시 인스턴스에서 프록시 서버를 작동 시키려고합니다. 몇 가지 문서를 읽었지만 실행 가능한 예제를 찾지 못했습니다. 이 https://github.com/scrapy-plugins/scrapy-splash/issues/107이 원인 이었다는 것이 내주의에 들었다. 나는 더 이상 그 추적을 받고 있지 않지만 여전히 프록시와 함께 Splash를 사용할
그래서 나는이 같은 Scrapy 스플래쉬 요청을 만들었습니다 : def start_requests(self):
lua_script = '''
function main(splash)
local url = splash.args.url
assert(splash:go(url))
assert(splash:wait(0
웹 사이트를 긁어 내려고했지만 동적으로 생성 된 콘텐츠 때문에 모든 페이지에서 스플래시를 사용해야합니다. 지금은 첫 번째 페이지 만 렌더링하지만 콘텐츠 페이지 나 페이지 매김 페이지는 렌더링하지 않습니다. 여기에 코드입니다 : 내가 떨어져 생각할 수있는 모든 방법으로 연주 한 import scrapy
from scrapy_splash import Spla
나는 JavaScript 기반의 IFRAMEd HTML 페이지에서 정보를 추출하기 위해 scrapy-splash를 사용하고 있습니다. 경우에 따라 일부 브라우저 조건으로 인해 자바 스크립트 기능이 실패하고 {"error": "NotSupportedError: DOM Exception 9"}과 같은 오류 메시지가 표시됩니다. 내 항목 파이프 라인에서 나는 깨