이 http://www.npr.org/rss/#feeds 뉴스 피드 웹 사이트에서 링크 및 카테고리를 얻으려고합니다.이 a = sel.xpath('//ul[@class="rsslinks"]/li/a/@href').extract()
b = sel.xpath('//ul[@class="rsslinks"]/li/a/text()').extract()
그러나
일반 브라우저에서는 정상적으로 작동하지만 치료 셸에서는 정상적으로 작동하지 않는 요청이 있습니다. "scrapy shell"또는 "scrap crawl"을 사용하자마자 전체 HTML 블록이 사라집니다. 나는 확실히 금지되어 있지 않다. https://github.com/scrapy/scrapy/issues/2109 : 내가 모질라와 같은 일반 브라우저 (프
일부 텍스트 데이터를 추출하는 데 scrapy 쉘을 사용하고 있습니다. 다음은 치료 껍질에서 내가 준 명령입니다. >>> scrapy shell "http://jobs.parklandcareers.com/dallas/nursing/jobid6541851-nurse-resident-cardiopulmonary-icu-feb2015-nurse-residency
크롤링 및 스크래핑 요구 사항이있는 Scrapy를 발견했습니다. 그러나 응용 요구 조건에 따라 나는 모 놀리 식 접근법을 사용하지 않기로 결정했다. 모든 것은 서비스를 기반으로해야합니다. 그래서 두 가지 서비스를 설계하기로했습니다. 모든 URL과 HTML을 가져 오십시오. s3에 올리기. 왜 HTML에서 스크랩 항목? 간단합니다, 오늘 나는 10 항목을 스
좋아요, 내가 시도한 것처럼 보입니다 모든 것 그냥 여기서 무슨 일이 일어나는지 알 수 없습니다. 스크래핑하려고하는 사이트에 대한 직접 링크는 http://www.ammofast.com/collections/pistol/products/aguila-25-auto-acp-full-metal-jacket-50-gr-1000-round-case 입니다. 제목과
How can I find an element by CSS class with XPath?을 따라 왔으며 클래스 이름별로 요소를 선택하는 데 사용할 수 있습니다. 문제는 내가 그것을 사용하여 빈 결과 "[]"를 검색 할 때 실제로 치료 셸에 제공된 URL에 div로 분류 된 "zoomWindow"가 있음을 알 수 있습니다. 내 시도 : scrapy shel