2017-12-16 26 views
0

내 목표 나 웹이 점점

www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home#results

에서 긁어 할 수 있도록 R의 몇 줄의 코드를 작성하는 것입니다 HTML 데이터 패턴을 얻을 .

Rcrawler 패키지 (here how it works)를 사용하기로 결정했으나 HTML 경험이 없으므로 ExtractXpathPat 옵션을 설정하여 데이터를 가져 오는 방법을 모릅니다.

Rcrawler(Website = "https://www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results", 
no_cores = 4, no_conn = 4, ExtractXpathPat = c("?????")) 

어떻게해야합니까? 어떻게 경로를 설정하는 법을 배울 수 있습니까? 감사합니다.

+0

시도 패키지 : https://cran.r-project.org/web/packages/rvest/rvest.pdf – maydin

답변

1

도메인의 정책에 따라 정보가 웹을 통해 추출되지 않도록주의하십시오.. 그러나 CSS 코드 또는 xpath를 얻으려면 브라우저에서 "Selector Gadget"또는 검사 버튼을 사용할 수 있습니다.

웹 스크래핑을 허용하려면 도메인의 robots.txt를 방문해야합니다. 귀하의 경우 : http://www.skyscanner.com/robots.txt. robotstxt 패키지를 사용할 수도 있습니다.