2016-11-23 3 views
0

현재 부동산 데이터를 작업 중이며 StreetEasy에서 일부 데이터를 긁어 내고 싶습니다.이 데이터는 표시된 가격 인 Register to see what it closed for about 2 months ago입니다.긁어서 StreetEasy 페이지에 로그인해야합니다. 요구 사항

URL의 예는 http://streeteasy.com/sale/1220187

내가 필요로하는 데이터는 로그인을 필요로하지만, 로그인 메커니즘은 매우 다릅니다. 로그인 페이지가 없으며 로그인은 팝업입니다. 어쨌든 파이썬을 사용하여 인증을 얻고 로그인 후 페이지에 아래 이미지처럼 액세스 할 수 있습니까?

+0

저는 실제로 부동산 웹 사이트가 아닌 매우 비슷한 것을하고 있습니다. "phantomjs"및 "selenium"과 같은 것을 사용하는 것에 대해 생각해 보셨습니까? – Carlos

답변

0

Selenium과 PhantomJS를 사용하면 데이터 스크래핑과 관련하여 강력한 조합을 얻을 수 있습니다. 당신이 보는 무엇

from selenium import webdriver 

host = "http://streeteasy.com/sale/1220187" 

driver = webdriver.PhantomJS() 

# Set the "window" wide enough so PhantomJS can "see" the right panel 
driver.set_window_size(1280, 800) 
driver.get(host) 

driver.find_element_by_link_text("Register to see what it closed for").click() 

driver.save_screenshot("output.jpg") 

는 셀레늄합니다 (JPG의 screencap 통해 확인) 웹 페이지 로그인에 당신을 얻을 수있는 방법의 작은 조각이다. 거기에서 자격 증명을 제공하고 로그인 상자를 토글하는 문제입니다.

아, TOS를 염두에 두시기 바랍니다. 행운을 빕니다!