scrapy-splash

2열

3답변

치료를 사용하여 일부 동적 콘텐츠를 다 써야합니다. Splash를 성공적으로 설정했습니다. 그러나, 다음과 같은 거미 수율 빈 결과의 선택기 : # -*- coding: utf-8 -*- import scrapy from scrapy.selector import Selector from scrapy_splash import SplashRequest

2열

1답변

scrapy-splash는 자체 헤더를 반환하지만 사이트의 원래 헤더는 반환하지 않습니다.

나는 거미를 만들기 위해 스플래쉬 - 스플래시를 사용합니다. 이제 내가 필요한 것은 세션을 유지하는 것입니다. 그래서 scrapy.downloadermiddlewares.cookies.CookiesMiddleware를 사용하고 set-cookie 헤더를 처리합니다. 나는 COOKIES_DEBUG = True로 설정했기 때문에 이것이 set-cookie 헤더

3열

1답변

스플래시가 처음 URL 뒤에 붙어있는 CrawlSpider

스플래시로 응답을 렌더링해야하는 스커피 스파이더를 작성하고 있습니다. 내 스파이더는 CrawlSpider를 기반으로합니다. 내 크롤링 스파이더에게 피드에 내 start_url 응답을 렌더링해야합니다. 불행히도 내 크롤링 스파이더는 첫 번째 응답이 렌더링 된 후 중단됩니다. 어떤 생각이 잘못 되었습니까? class VideoSpider(CrawlSpider)

4열

1답변

스플래시 루아 스크립트를 여러번 클릭하고 방문하기

Google Scholar search results을 크롤링하고 검색 결과와 일치하는 모든 BiBTeX 형식을 얻으려고합니다. 지금은 스플래시가있는 Scrapy 크롤러가 있습니다. 나는 "인용"링크를 클릭하고 인용문의 BibTeX 형식의 href을 얻기 전에 모달 창을로드 할 루아 스크립트가 있습니다. 그러나 여러 개의 검색 결과와 여러 개의 "인용"링크

0열

1답변

Scrapy + Splash로 자바 스크립트를 실행 한 후 HTML 파일 가져 오기

Scrapy와 Splash를 사용하여 자바 스크립트가 포함 된 페이지를 크롤링하고 싶습니다. 페이지에서 <script type = text/javascript> JS_FUNCTIONS(generate html content) </script>이 있으므로 아래의 JS_FUNCTIONS를 실행 한 후 html 파일을 가져 오려고했습니다. 내가 명령 scrapy