특정 제품의 판매 업체와 가격을 표시하는 제품 목록 페이지를 다 써 버리려하지만 urllib.urlopen이 작동하지 않습니다. Amazon의 다른 모든 페이지에서도 작동하지만 아마존의 봇은 제품 목록 페이지의 긁힘을 방지합니다. 누구든지 이것을 확인할 수 있습니까? http://www.amazon.com/gp/offer-listing/B007E84H96/ref=dp_olp_new?ie=UTF8&condition=newPython을 사용하여 Amazon Product Listing 페이지를 긁을 수 있습니까?
답변
가 MethodNotAllowed 반환
$ curl -I 'http://www.amazon.com/gp/offer-listing/B007E84H96/ref=dp_olp_new?ie=UTF8&condition=new'
HTTP/1.1 405 MethodNotAllowed
Date: Wed, 13 Feb 2013 16:41:08 GMT
Server: Server
x-amz-id-1: 1WKZG9N0SE87E3KFG6YV
allow: POST, GET
x-amz-id-2: Apluv2QBzzrmXlRWjlClRGsQQ1TbwsxObe2hxfdrGhO/OQziI/aIT3vkVjCPn+qz
Vary: Accept-Encoding,User-Agent
Content-Type: text/html; charset=ISO-8859-1
'-A'스위치를 사용하여 User-Agent 문자열을 추가해도 해당 반환 값에 영향을 미치지 않습니다.
다른 HTTP 헤더를 사용하여 실험 해 볼 수 있습니다. 그러나 아마존이 제품 페이지에서 스크랩 가격 을 스크리닝하기를 원하지 않는다는 것은 꽤 명백합니다. 그리고 약간의 인터넷 검색이 페이지가 나타납니다 : 6 월 아마존은 시행하기 시작했다없이 팡파르 또는 경고와
http://www.distil.it/amazon-cracks-down-on-price-scraping/#.URvBFo4ry0s
을 오랜에서 직접 정보를 나열 수확 에서 스크린 긁는 도구를 금지하는 정책을 그 마켓 플레이스는 타사 개발자에 따라 가맹점에 대한 가격 책정 서비스 제공 업체를 위해 즐겨 찾는 도구입니다.
아마존에는 제휴사를위한 API가 있습니다. 오른쪽 열에있는 "관련"질문 링크에서 Python의 해당 API를 사용하는 것과 관련된 몇 가지 관련 질문이 있습니다.
고맙습니다. 나는 컬 (curl)에 대해 들어 본 적이 없었습니다. 도와 주셔서 감사합니다. –
당신이 BeautifulSoup로 들어 본 적이 : 여기
는 제품 목록 페이지의 예는 내가 긁어 싶은 것 ... 난 아직 페이지 소스를 볼 수 있습니다 크롬을 사용하십니까? 당신은 그 중 일부 마일리지를 얻을 수 있습니다 ...http://www.crummy.com/software/BeautifulSoup/
추가 사항 : 해당 URL에 '컬 -I'를 시도 BeautifulSoup Grab Visible Webpage Text
API에 문제가 있습니까? "정문"으로가는 것이 더 쉬울 것입니다.> –