2017-09-16 9 views
0

그래서 일부 링크를 가져 오기 위해 bs4를 사용하는 스크레이퍼가 있습니다. 그런 다음 해당 링크를 다운로드 하겠지만 문제는 다운로드 버튼을 클릭하면 브라우저가 자동으로 시작됩니다. 간접적으로 링크가 가리키는 zip 파일을 다운로드 할 수 있지만 urllib에 동일한 링크를 제공하면 zip 파일 대신 페이지가 다운로드됩니다.urllib을 통해 파일을 다운로드 할 수 없습니다.

내가 밖으로 긁어 링크는 다음과 같습니다 Main Page

연결이 기본 페이지에서 이제 때 텍스트 "4931x"

있다 : 그 링크를 폐기 페이지에 링크

Link I got from scraping 어떻게 든 리다이렉트하는 브라우저를 통해 같은 링크를 클릭합니다 : Redirected link

하지만 제 3의 링크와 함께 urlopen을 사용하는 경우에도 첫 번째 링크로 다시 연결됩니다!

나는 이것이 어리석은 질문이고 정말 쉬운 해결책이 될지도 모르지만 나는 그 주위를 돌아 다니는 것 같지 않습니다. 난 그냥 urlopen하지만 자동으로 압축 된 자막을 다운로드하고 싶지만, 난 못해!

답변

1

웹 브라우저 개발 도구의 네트워크 패널이 표시 될 때 원래 URL은 https://www.flixtools.com/en/osflixtools.subtitles-download/subtitles/6647724?source=source_os_landing&campaign=campaign_sub_landing으로 리디렉션되는 위치 헤더와 함께 HTTP 302 응답을 반환합니다. 이 페이지는 다음 HTML을 포함합니다 : <meta http-equiv="refresh" content="5; URL=//dl.opensubtitles.org/en/download/vrf-108d030f/sub/6647724">. 그러면 5 초 동안 기다린 후 웹 브라우저가 해당 URL을 탐색하도록 지시합니다.