1
안녕하세요, lastmod
이 (가) 특정 날짜보다 새로운 페이지 만 긁고 싶습니다.lastmod 날짜보다 새로운 경우 스크랩 URL -Scrap
예 : lastmod
이 14/9/2017 이상일 경우에만 URL을 긁습니다.
내가 모든 페이지를 긁어이 코드를 사용하지만 lastmod
날짜를 기준으로 제한 할 수 없습니다 :
import requests
from scrapy.spiders import SitemapSpider
from urllib.parse import urljoin
class MySpider(SitemapSpider):
name = 'sitemap_spider'
robots_url = 'http://www.example.org/robots.txt'
sitemap_urls = [robots_url]
sitemap_follow = ['products-eg-ar']
def parse(self, response):
print(response.url)
이 내 robots.txt
sitemap: /sitemap-products-eg-ar-index-1-local.xml
인 sitemap-products-eg-ar-index-1-local.xml
에는 다음이 포함
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>/sitemap-products-eg-ar-1.xml</loc>
</sitemap>
<sitemap>
<loc>/sitemaps/sitemap-products-eg-ar-2.xml</loc>
</sitemap>
</sitemapindex>
및 sitemap-products-eg-ar-2.xml
은 :
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>/product-8112041/i/</loc>
<priority>0.8</priority>
<lastmod>2017-06-17</lastmod>
<changefreq>daily</changefreq>
</url>
</urset>