2014-08-28 8 views
1

안녕하세요 HTTP Client 단계를 사용하여 웹 사이트의 소스 코드를 가져 왔습니다. 한 줄의 특정 부분을 긁어 내야합니다.PDI 스푼 단계 (사용자 정의 Java 클래스)에서 HTML 스크래핑

예 선 : <a href="....." ......>TEXT I WANT</a>

볼 그래서 내가 PDI에 UDJC을 사용 패턴 및 제 배열을하고, 실행 조건 (즉, 정규식 검사)와 다음 String[] lines = code.split("\n+"); 및 루프 라인으로 텍스트 블록을 분할 내가 바른 길을 가졌다면.

for(String line : lines){ 
     if line.matches(".*a href.*"){ 
      String outputString = code; 
      break; 
     } 
    } 

(PDI가없는 순수한 java로도 IDE에서이 작업을 시도하고 있습니다.) 이 문제를 어떻게 해결할 수 있습니까? 아니면 내가 원하는 청크를 빠르고 쉽게 얻을 수있는 방법이 있습니까?

답변