2017-03-26 11 views
2

하나의 HTML 페이지를 구문 분석하고 클래스 이름이나 HTML 태그의 ID를 사용하여 텍스트를 추출하고 싶습니다.하나의 HTML 페이지를 구문 분석하고 HTML 태그의 클래스 이름이나 ID를 사용하여 텍스트를 추출하는 방법은 무엇입니까?

아파치 tika 또는 jsoup? html 페이지의 특정 태그, id 또는 클래스 이름을 사용하여 텍스트를 조작하고 조작하는 데 더 많은 제어 권한이있는 도구 이름을 제안 해주십시오.

+1

'티카'에 대해서는 잘 모르겠지만 '기대'는 당신이 기대하는 바를 분명히 할 것입니다. – soorapadman

답변

1

내가 당신에게 Jsoup를 사용하여 세 가지 사용 사례의 예를 만든 코드에서 주석을 참조하십시오 클래스 이름으로

  • 가져 오기 DIV 요소를
  • 태그 이름으로 모든 DIV 요소를 얻을
  • ID로 요소를 얻을
String html = "..."; 
Document doc = Jsoup.parse(html); 

// get div elements by class name 
Elements divs = doc.select("div.myclass"); 
for (Element div : divs) { 
    // print containing text 
    System.out.println(div.text()); 
} 

// get all div elements by tag name 
divs = doc.getElementsByTag("div"); 
for (Element div : divs) { 
    // print containing text 
    System.out.println(div.text()); 
} 

// get element by id 
String id = "..."; 
Element element = doc.getElementById(id); 
System.out.println(element.text()); 
+0

코드 주셔서 감사합니다 ..이 대답을 확인하고 표시 할 것입니다 .. @ flavio-donze – rrsk