2013-08-26 3 views
0

웹 사이트의 특정 텍스트를 어떻게 파싱 할 수 있습니까? 예를 들어 웹 페이지에 <meta property='ABC' content="DEF" />의 사이트가있는 경우 나는 'ABC'를 찾고 'DEF'를 찾고 싶습니다. 이런 기능을 어떻게 만들 수 있습니까? html에 대한 경험이 없거나 정보를 파싱하지 않았습니다.html 문서의 데이터 구문 분석 (<meta property = 'ABC'content = "DEF"/>)

감사

나는 그것이 좋은 기능이 많이 추가 할 JSOUP 좋아
+1

Java 라이브러리 jsoup http://jsoup.org/ – amatellanes

+0

을 사용해 볼 수 있습니다. http://try.jsoup.org/. 그러나 그것은 메타 태그를 인식하지 못합니다. –

+0

또한 [this post] (http://stackoverflow.com/questions/299334/parest-meta-tags-in-java) –

답변

0

...

JSoup 당신이 CSS 선택기를 사용하여 정보를 풀다운하고자하는 경우 다음 당겨 문서를 많이 돌봐 페이지 내의 요소에 액세스 할 수 있습니다.

메타 태그에 대한 지원까지 모든 테스트 코드를 쓸 수는 없지만 this example에 대한 스택 오버플로가 조금 있습니다.

0

많은 자바를 사용하지 않지만 정규 표현식을 사용하는 것이 좋습니다. 이와 같은 간단한 텍스트 검색의 경우 매우 간단합니다. 'ABC'를 검색하려면 간단히 정규 표현식 ABC을 사용하십시오. ABC|DEF과 같은 것을 사용하여 'ABC'또는 'DEF'인스턴스를 검색 할 수 있습니다. 나는 네가 원하는 것을 정확히 모르겠다. 그러나 네가 명확히한다면 나는 더 많은 것을 도울 수있다.

Java에는 대부분의 프로그래밍 언어와 마찬가지로 이러한 표현식을 평가할 클래스가 있습니다. 다음을 사용하는 방법에 대한 자세한 내용은

import java.util.regex.Matcher;

import java.util.regex.Pattern;

, 그것은 당신이 정규 표현식에를 이해하기위한 정보를 포함 할 필요 거의 모든 정보를 제공합니다 this link를 참조하십시오.

정규식 구문에 대한 자세한 내용은 go here을 참조하십시오.

패턴을 찾기 위해 문자열을 검색하는 다른 방법이 있지만 정규 표현식은 모든 언어에서 동일하며 찾는 패턴이 복잡 해짐에 따라 점점 더 유용 해집니다.

+0

안녕하세요, 나는이 같은 것을 사용했다고 생각합니다, 내가 게시 할 것입니다. 내가 끝났을 때 했어! 감사 :) –