2017-10-17 2 views
-3

웹 페이지의 HTML을 문자열로 받았는데 문자열에 포함 된 HTML 태그, 특히 메타 태그에서 값을 추출하려고합니다. jQuery를 통해이 작업을 수행하는 방법을 찾았습니다. 그러나 사용중인 플랫폼에서 JQuery와 html을 추출 할 수 없으므로 기술적으로 문자열이므로 html이 필요하지 않습니다. 각 메타 태그를 추출하여 나중에 사용할 어레이에 저장하려고합니다. 모든 정규식 솔루션?자바 문자열 만 사용하여 HTML 문자열에서 메타 태그 추출

var rawHTML=input.rawHTML; 
var HTMLlength=rawHTML.length; 
var metas=rawHTML.split(">"); 
var testString="This is a <body>Test String for Regex</body>"; 
for(var i=0;i<metas.length;i++) 
    { 
    metas[i]=metas[i]+">"; 
    } 
var twitterResults; 
for(var i=0;i<metas.length;i++) 
    { 
    metas[i]=strip_html_tags(metas[i]); 
    //twitterResults = testString.match(<TAG\b[^>]*>(.*?)<); 
    } 

는 가장 중요한 것은 내가

/<([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1> 

이러한 태그를 추출하는 정규식 표현을하려고하지만 내가 정규식의 탈옥 수 없습니다 보인다 세미콜론을 수락하지 않습니다 세미콜론으로 그냥 오류가

+0

문자열 샘플을 공유하고 시도해 보시겠습니까? – C2486

답변

0

당신은 정규 표현식을 사용할 수 있지만 실제로 DOM documentFragment에 문자열을로드 한 다음 meta 태그의 단편을 구문 분석하여 1의 노드를 찾고 nodeName === META.