2013-02-12 3 views
1

특정 제품의 판매 업체와 가격을 표시하는 제품 목록 페이지를 다 써 버리려하지만 urllib.urlopen이 작동하지 않습니다. Amazon의 다른 모든 페이지에서도 작동하지만 아마존의 봇은 제품 목록 페이지의 긁힘을 방지합니다. 누구든지 이것을 확인할 수 있습니까? http://www.amazon.com/gp/offer-listing/B007E84H96/ref=dp_olp_new?ie=UTF8&condition=newPython을 사용하여 Amazon Product Listing 페이지를 긁을 수 있습니까?

+2

API에 문제가 있습니까? "정문"으로가는 것이 더 쉬울 것입니다.> –

답변

2

가 MethodNotAllowed 반환

$ curl -I 'http://www.amazon.com/gp/offer-listing/B007E84H96/ref=dp_olp_new?ie=UTF8&condition=new' 
HTTP/1.1 405 MethodNotAllowed 
Date: Wed, 13 Feb 2013 16:41:08 GMT 
Server: Server 
x-amz-id-1: 1WKZG9N0SE87E3KFG6YV 
allow: POST, GET 
x-amz-id-2: Apluv2QBzzrmXlRWjlClRGsQQ1TbwsxObe2hxfdrGhO/OQziI/aIT3vkVjCPn+qz 
Vary: Accept-Encoding,User-Agent 
Content-Type: text/html; charset=ISO-8859-1 

'-A'스위치를 사용하여 User-Agent 문자열을 추가해도 해당 반환 값에 영향을 미치지 않습니다.

다른 HTTP 헤더를 사용하여 실험 해 볼 수 있습니다. 그러나 아마존이 제품 페이지에서 스크랩 가격 을 스크리닝하기를 원하지 않는다는 것은 꽤 명백합니다. 그리고 약간의 인터넷 검색이 페이지가 나타납니다 : 6 월 아마존은 시행하기 시작했다없이 팡파르 또는 경고와

http://www.distil.it/amazon-cracks-down-on-price-scraping/#.URvBFo4ry0s

을 오랜에서 직접 정보를 나열 수확 에서 스크린 긁는 도구를 금지하는 정책을 그 마켓 플레이스는 타사 개발자에 따라 가맹점에 대한 가격 책정 서비스 제공 업체를 위해 즐겨 찾는 도구입니다.

아마존에는 제휴사를위한 API가 있습니다. 오른쪽 열에있는 "관련"질문 링크에서 Python의 해당 API를 사용하는 것과 관련된 몇 가지 관련 질문이 있습니다.

+0

고맙습니다. 나는 컬 (curl)에 대해 들어 본 적이 없었습니다. 도와 주셔서 감사합니다. –