2011-07-29 4 views
1

웹 페이지에서 데이터를 검색하고 긁어 데이터베이스에 저장하는 데 유용한 오픈 소스 Java 라이브러리는 무엇입니까?웹 페이지에서 데이터를 검색하고 긁어내는 데 유용한 Java 라이브러리는 무엇입니까?

<tr><td><b>Address:</b></td> 
<td colspan=3>123 My Street  </td></tr> 

"주소 :"예를 들어, 내가 같은 페이지가 있다고 가정의 핵심이지만, 사실 그 사이에 html 태그 및 공간의 무리를 가지고 "123 내 거리"를 얻으려고 . 이상 적으로 문자열 "Address :"를 따르는 td 사이의 값을 가져 오려고합니다. JSoup이 찾기를 수행 할 수있는 것처럼 보이지만 오프셋을 수행하는 방법에 대한 좋은 예를 보지 못했습니다. 키/값을 처리하는 라이브러리가 있습니까?

Kapow Extraction Browser와 비슷한 UI 스크립팅을위한 오픈 소스 (MIT/Apache) 이니셔티브에 대해서도 배우고 싶습니다.

감사합니다. 나는 야생에서 수십 웹 페이지의 수천을 구문 분석에 대한 큰 성공 TagSoup을 사용했습니다 http://java-source.net/open-source/html-parsers

:

답변

1

이 오픈 소스 파서의 좋은 목록입니다. "키 - 값"관계에 관해서는, 그것은 당신이 당신 자신을 다뤄야 할 어떤 것입니다.

2

시도 Web-Harvest. 자바로 작성된 오픈 소스 크롤러입니다.
Java 라이브러리, 명령 줄 응용 프로그램 또는 독립 실행 형 IDE로 사용할 수 있습니다.

<xpath> 요소를 사용하여 XHTML 문서에서 값을 추출 할 수 있습니다.