가능한 중복 된 텍스트를 얻을 : RegEx matching HTML tags and extracting texthtml 태그 사이에
을 내가 <p></p>
이든 같은 html 태그 사이의 텍스트를 얻을 필요가있다. 내 패턴은이
Pattern pText = Pattern.compile(">([^>|^<]*?)<");
누구나 더 좋은 패턴을 알 수 있습니다. 왜냐하면이 패턴은별로 유용하지 않기 때문입니다. 웹 페이지에서 콘텐츠 색인을 얻으려면 필요합니다.
고마워요.
정규식이 좋지만 읽었습니까? http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –
옵션이 있어야합니다. * 닫을 투표 : 사용자가 정규식을 사용하여 HTML을 파싱합니다. * –