2017-11-08 5 views
0

크롤링을 할 때 대개 Python으로 구문 분석하기 전에 스크립트를 사용합니다. 이렇게하면 JSON을 쉽게 구할 수 있고 파싱 할 수 있습니다.json을 얻으려는 요청으로 파이썬 크롤

>>> import requests 
>>> r = requests.get('~.json') 
>>> r.json() 

그러나이 페이지가 발생, https://www.eiganetflix.jp/%E3%82%BF%E3%82%A4%E3%83%97/tv-%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA

이 페이지의 자료를 보여 JSON을 호출 할 상호 작용이 없어 보인다. 그리고 페이지 매김 자바 스크립트 기능을 찾기가 어렵습니다. (실제로는 있지만 실행하기가 어렵습니다.)

이 경우 기존 requestsjson 방법을 어떻게 활용할 수 있습니까? 또는이를 쉽게 크롤링 할 수있는 방법이 있습니까?

답변

1

제대로 이해하면 JSON 응답이없는 웹 페이지를 긁어 내고 싶습니다. 웹 사이트에 JSON 데이터를 가져올 수있는 API가 없는지 확인하십시오. 또는 XML과 같은 다른 구조화 된 데이터도 도움이됩니다. 아무 방법이 없다면, 당신은 가장 쉬운 방법이 아닌 긁힌 자국을 스크리닝해야 할 것입니다. 이 작업을위한 프레임 워크 인 scrapy을 확인하거나 사용자 정의 솔루션에 대해 beautifulsoup와 같은 라이브러리를 사용할 수 있습니다.

페이지에서 Javascript를 사용하는 경우 페이지에서 콘텐츠를 가져 와서 페이지를 탐색해야합니다. 이를 수행하려면 spynner 또는 Selenium이 있습니다.