코드를 추출하려고 시도했을 때 ROBOTS 메타 태그가 반환되고 Mechanize를 사용하려고 시도 할 때도 계속해서이를 수행하는 웹 사이트가 있습니다. 예를 들면 다음과 같습니다.로봇이 무시하도록 설정되어 있음에도 불구하고 robot.txt를 반환합니다.
헤더 설정 및 다른 핸들 설정을 시도했지만 ROBOTS 메타 태그가 아닌 응답을받지 못했습니다.
도움을 주시면 감사하겠습니다.
편집 :
아래에 제안 된 헤더를 시도하는
import mechanize
url = "http://myanimelist.net/anime.php?letter=B"
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders=[('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'),
('Host', 'myanimelist.net'),
('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'),
('Accept-Encoding', 'gzip, deflate, sdch'),
('Accept-Language', 'en-US,en;q=0.8,ru;q=0.6'),
('Cache-Control', 'max-age=0'),
('Connection', 'keep-alive')]
br.open(url)
response = br.response().read()
print response
나는 여전히 같은 로봇 메타 태그를 얻을. 헤더를 잘못 추가 했습니까? 아니면 단순히 보안 문자에만 매달렸습니까?
감사합니다. 고맙습니다.