치료를 사용하여 일부 동적 콘텐츠를 다 써야합니다. Splash를 성공적으로 설정했습니다. 그러나, 다음과 같은 거미 수율 빈 결과의 선택기 : # -*- coding: utf-8 -*-
import scrapy
from scrapy.selector import Selector
from scrapy_splash import SplashRequest
나는 거미를 만들기 위해 스플래쉬 - 스플래시를 사용합니다. 이제 내가 필요한 것은 세션을 유지하는 것입니다. 그래서 scrapy.downloadermiddlewares.cookies.CookiesMiddleware를 사용하고 set-cookie 헤더를 처리합니다. 나는 COOKIES_DEBUG = True로 설정했기 때문에 이것이 set-cookie 헤더
스플래시로 응답을 렌더링해야하는 스커피 스파이더를 작성하고 있습니다. 내 스파이더는 CrawlSpider를 기반으로합니다. 내 크롤링 스파이더에게 피드에 내 start_url 응답을 렌더링해야합니다. 불행히도 내 크롤링 스파이더는 첫 번째 응답이 렌더링 된 후 중단됩니다. 어떤 생각이 잘못 되었습니까? class VideoSpider(CrawlSpider)
Google Scholar search results을 크롤링하고 검색 결과와 일치하는 모든 BiBTeX 형식을 얻으려고합니다. 지금은 스플래시가있는 Scrapy 크롤러가 있습니다. 나는 "인용"링크를 클릭하고 인용문의 BibTeX 형식의 href을 얻기 전에 모달 창을로드 할 루아 스크립트가 있습니다. 그러나 여러 개의 검색 결과와 여러 개의 "인용"링크
Scrapy와 Splash를 사용하여 자바 스크립트가 포함 된 페이지를 크롤링하고 싶습니다. 페이지에서 <script type = text/javascript> JS_FUNCTIONS(generate html content) </script>이 있으므로 아래의 JS_FUNCTIONS를 실행 한 후 html 파일을 가져 오려고했습니다. 내가 명령 scrapy