위키 백과의 일부 데이터를 100 페이지 (약)에서 스크랩하려고합니다. (페이지 형식이 동일). Wikipedia는 XML 형식의 콘텐츠를 제공하는 API를 제공하거나 jsoup를 사용하여 페이지에서 데이터를 직접 가져올 수 있습니다.StAX vs jsoup : API를 통해 XML을 사용할 수있는 경우 웹 페이지를 구문 분석하는 더 나은 방법입니다.
데이터를 스크랩하는 데 사용해야하는 방법은 무엇입니까?
위키 백과의 일부 데이터를 100 페이지 (약)에서 스크랩하려고합니다. (페이지 형식이 동일). Wikipedia는 XML 형식의 콘텐츠를 제공하는 API를 제공하거나 jsoup를 사용하여 페이지에서 데이터를 직접 가져올 수 있습니다.StAX vs jsoup : API를 통해 XML을 사용할 수있는 경우 웹 페이지를 구문 분석하는 더 나은 방법입니다.
데이터를 스크랩하는 데 사용해야하는 방법은 무엇입니까?
API를 사용할 수 있으므로이 방법을 사용해야합니다. 내용은 잘 형성되어 있으며 웹 페이지의 경우와 같이 사용자가 알아 차리지 않으면 표현이 변경되지 않습니다. HTML 스크래핑을 사용하여 원하는 내용을 가져 오는 것은 오류가 발생하기 쉽습니다. 스타일을 약간 변경하면 선택기가 손상되고 스크래퍼가 쓸모 없게 될 수 있기 때문입니다.
위키피디아는 XML을 사용하기 때문에 대부분 SOAP 웹 서비스를 사용합니다 (반드시 그래야하는 것은 아닙니다). 그렇다면 CXF 프레임 워크에서 웹 서비스 클라이언트를 즉시 생성 할 수있는 wsdl을 사용할 수 있어야합니다. 비누 서비스에 익숙하지 않은 분은 여기를보십시오 http://cxf.apache.org/docs/a-simple-jax-ws-service.html.
CXF에는 훌륭한 pojo 생성기 스크립트가 함께 제공됩니다. wsdl2java를 확인하십시오. 이 스크립트를 실행하면 대상 (wsdl)을 제공 할 수 있으며 스크립트는 웹 서비스를 사용하는 데 필요한 모든 클래스를 생성합니다.
업데이트
위키 백과는 단지 콘텐츠 형식으로 XML의 옵션을 제공, REST
서비스를 사용합니다. 응답은 매우 간단합니다. 응답에 Gson을 사용할 수 있으며, hs 콘텐츠 인 관심있는 속성을 jsoup로 구문 분석 할 수 있습니다.
업데이트
로 시작하여 코딩지기 치어에 STAX 의존성을 추가이 https://www.youtube.com/watch?v=uv9tXFrTLtI
그리고 위키의 XML (http://en.wikipedia.org/w/api.php?action=parse&format=xml&prop=text&page=Brad_Pitt_filmography§ion=1&contentformat=text/plain)은 대부분 HTML로 해석하기가 어렵지 않습니다. in tags – Ankit
내 업데이트를 확인하십시오. – alkis