2016-10-20 5 views
-2

사용자 에이전트 매개 변수에 정크 값을 넣었지만 다음 코드는 완벽하게 실행됩니다. 나는 다른 User-Agent 매개 변수를 시도하여 내 크롤링 문제를 해결하기 위해 열심히 노력했으며, 다음 프로그램을 기반으로 마침내 사용자 에이전트 매개 변수가 내 프로그램에서 아무런 변화도없는 것처럼 보였습니다. 어떻게 그렇게 될 수 있습니까?코드가 'User-Agent'매개 변수의 정크 값으로도 완벽하게 실행됩니다.

시스템 : 우분투 16.04, 파이썬 3.5

import urllib.request 
req = urllib.request.Request('http://example.com', headers = {'User-Agent': "junkvalues-dsfafew"}) 
x = urllib.request.urlopen(req)  # open the url 
sourceCode = x.read() # get the source code 
print (str(sourceCode)) 
+0

좀 더 구체적으로 질문 할 수 있습니까? – Valeriy

+1

당신은 '사용자 에이전트 매개 변수에 대해 눈이 멀었다'는 것을 의미합니까 ... 세부 사항을 제공하십시오 – coder

+0

직면 한 문제를 자세히 설명하기 위해 내 질문을 편집했습니다. – Scyber

답변

0

이 전혀 요청의 최종에서 어떤 방법으로 사용자 에이전트에 대한 관심. 방문자가 사용하는 브라우저에 대한 통계를 수집하거나 필요할 수있는 최신 기술을 지원하지 않는 구형 브라우저에 대체 버전의 페이지를 제공하려는 경우가 있습니다. 정상적인 페이지로. 서버가 인식 할 수없는 User-Agent를 사용하여 요청을 거부 할 수는 있지만, 일반적으로 브라우저를 비정상적으로 사용하거나 사이트를 프로그래밍 한 것보다 브라우저를 더 이상 사용할 수 없으므로 일반적으로 좋지 않은 아이디어입니다.

+0

종합적인 설명 주셔서 감사합니다. – Scyber

+0

훌륭한 대답이지만, 일부 서버는 봇/스크립트 및 DOS와 같은 잠재적 인 사이버 공격으로부터 자신을 보호하려고하기 때문에 특정 '사용자 에이전트'에서 발생하는 요청을 삭제한다고 덧붙입니다. – coder