2013-02-19 3 views
0

방금 ​​콘텐츠 추출 프로젝트 작업을 시작했습니다. 먼저 웹 페이지에서 이미지 URL을 찾으려고합니다. 경우에 따라 "img"의 "src"속성은 상대 URL을가집니다. 하지만 전체 URL을 가져와야합니다.이미지 자바에서 웹 페이지에서 추출

나는 이것을 달성하기 위해 몇 가지 Java 라이브러리를 찾고 있었고 Jsoup이 유용 할 것입니다. 이것을 쉽게 달성 할 수있는 다른 도서관이 있습니까?

+1

가능성이 낮습니다. 직접 경로에 대한 참조를 유지해야합니다. URL을 사용하여 스펙의 다양한 요소를 추출하여 도움을받을 수 있습니다. – MadProgrammer

답변

1

그냥 상대 하나에서 전체 URL을 얻을 필요가있는 경우,이 솔루션은 자바 간단하다

URL pageUrl = base_url_of_the_html_page; 
String src = src_attribute_value; //relative or absolute URL 
URL imgUrl = new URL(pageUrl, src); 

HTML 페이지의 기본 URL은 일반적으로 당신이 HTML 코드를 얻은 바로 URL입니다 에서. 그러나 < 기본 > 태그는 문서 헤더에 사용되어 다른 기본 URL을 지정하는 데 사용될 수 있습니다 (그러나 자주 사용되지는 않음).

src 속성 값을 얻고 최종 기본 태그를 찾기 위해 Jsoup 또는 DOM 파서 만 사용할 수 있습니다.