scrapy

0열

2답변

Scrapy : XPath를 사용하여 div 요소의 첫 번째 태그를 선택하는 방법

Scrapy의 SitemapSpider를 사용하여 각 제품 컬렉션의 모든 제품 링크를 가져옵니다. 사이트 내 목록은 모든 Shopify 저장하고 있으며 제품에 연결하는 코드는 다음과 같다 : <div class="grid__item grid-product medium--one-half large--one-third"> <div class="gr

2열

1답변

XPath 및 Scrapy - 태그의 깊이와 양이 일치하지 않을 때 링크 스크랩

Scrapy의 SitemapSpider를 사용하여 Shopify 매장 목록을 확인하십시오. 나는 각각의 컬렉션에서 XPath로 모든 제품을 가져오고있다. 일반적으로 이것은 어렵지 않습니다. 그러나 콜렉션 페이지의 html은 몇 가지 방법으로 사이트마다 다릅니다. 모든 제품 링크 는 DIV 요소 안에있는 내 태그 (들)이 DIV 조상의 수입니다 : 내가 할

0열

2답변

Scrapy get function from text()

function에서 branchId를 가져오고 싶지만 couldnt합니다. 함수에서 어떻게 벗어나야하는지 알고 계십니까? item["branchId"] = row.xpath('//div[@class="branchprofile"]//script/text()').extract()[0] HTML 코드 : 당신이 @id를 사용해야하는 위치 <div id="br

-2열

1답변

Python의 특정 웹 페이지에 새로운 것이 있는지 확인하는 방법은 무엇입니까?

BS4 & 치료법을 사용하여 웹 페이지를 고칩니다. 새로운 것이 있는지 확인하는 방법이 있습니까? 그렇다면 복사하여 인쇄 할 수 있습니까? 예를 들어 here은 내가이 게시물을 쓰는 중 생방송으로 축구 경기입니다. 각 득점 득점은 플레이어의 이름과 시간이며 축구 공은 span이고 등급은 icon soccer-ball입니다. 2 분마다 어떻게 페이지를 확인하

0열

2답변

시작 페이지를 무시하고 다음 페이지로 계속되는 치료

나는 페이지 매김을 시도하는 메뚜기 거미를 가지고 있지만 크롤링 프로세스를 시작할 때마다 페이지 1 인 시작 페이지를 건너 뛰고 즉시 2 페이지로 이동하는 것처럼 보입니다 당신이 start_urls를 사용할 때 응답이 parse에있어서, 상기 제 1 시간에 간다 때문에 class IT(CrawlSpider): name = 'IT' allowed

0열

1답변

셀레늄 및 크롬 드라이버로 치료하면 여러 요청으로 세션이 유지됩니다.

크롬 드라이버와 함께 Scrapy 및 Selenium을 사용하여 웹 사이트를 긁습니다. 나는 404를주는 웹 사이트에 구현 된 보호 메카니즘이 있기 때문에 Scrapy를 사용하여 웹 사이트를 긁을 수는 없다. 나는 scream과 함께 셀레늄을 사용할 때 페이지 html에 액세스 할 수있다. 하지만 문제는 내가 셀레늄을 사용할 때 치료를 통해 액세스 된 모든

3열

2답변

두 번째 페이지의 내용을 무시하는 치료

나는 웹 페이지에서 다른 이름을 구문 분석하기 위해 파이썬 치료에 작은 긁개를 작성했습니다. 페이지는 페이지 매김을 통해 4 페이지를 더 통과했습니다. 페이지 전체의 총 이름은 46 개이지만 36 개의 이름을 긁어 모으고 있습니다. 스크레이퍼는 첫 번째 랜딩 페이지의 내용을 건너 뛰지만 내 스크레이퍼에서 parse_start_url 인수를 사용하여 처리했습

0열

2답변

지정된 디스플레이 콘텐츠가있는 html 태그를 선택하십시오.

저는 치료를 처음 받았고 몇 시간 동안이 문제로 어려움을 겪었습니다. 나는 소스와 함께 페이지를 긁어 필요가 든 다음과 같습니다 <tr class="odd"> <td class="pfama_PF02816">Pfam</td> <td><a href="http://pfam.xfam.org/family/Alpha_kinase">Alpha_

2열

1답변

스 커셸 셸의 루프에서 파생 된 결과를 인쇄하는 방법은 무엇입니까?

나는 치료 껍질로 일하기가 매우 쉽다. 나는 많은 것을 수색했지만 scrapy 쉘에서 인쇄 명령이 무엇인지 알 수 없었다. 울부 짖는 소리를 보시면 제가 의미하는 것을 이해하실 수 있습니다. 누군가가 내가 scrapy 셸의 결과를 인쇄 할 수있는 방법으로 나에게 도움이된다면 scrapy shell http://quotes.toscrape.com/ --nol

1열

2답변

Scrapy xpath가 작동하지 않습니다 (parbase를 사용하는 경우 일 수도 있습니다)

이것은 URL입니다. 나는 기사의 몸 내용을 얻는 것을 시도하고 있었다; "TV에서 공동 시청 ...". 나는 다음의 표현을 시도했다 : [In 1]:response.xpath("//*[contains(@class, 'text parbase')]//text()").extract() [Out 1]:[] [In 2]:response.xpath("//*[c