2010-06-25 6 views
0

XQuery를 사용하여 HTML 페이지에서 내용을 추출하고 있습니다.Xquery 구문 분석 텍스트 <a> 태그

아래와
<td> 
     <a href ="hw1">xyz </a> 
      Hello world 1 
     <a href="hw2">Helloworld 2</a> 
      Helloworld 3   
</td> 

텍스트를 추출하는 제 XQuery 식 그대로 :

//a[starts-with(@href,'hw1')]/following-sibling::text() 

이 식 날 제공 다음 HTML 구조체는 이러한 종류의 인

helloworld를 1 helloworld를 2 helloworld를 3

나는이 형식으로하고 싶습니다. 헬로우 월드 1 헬로우 월드 2 헬로우 월드 3 또는 헬로우 월드 1 helloworld를 3

나는 태그

난 당신이 무엇을 찾고 있는지 정말 명확하지 않다
+0

XQuery를 많이 사용하지 않아서 지식이 풍부한 사람이이 문제를 해결해야합니다. 그러나 중첩 된'a' 태그는 HTML에서 허용되지 않습니다. 그것은 문제의 일부일 수 있습니다. – Mike

+0

출력을 으로받을 수도 있습니다. Helloworld 1 Helloworld 2 Helloworld 3 – Technocrat

+0

Oops 태그를 잘못 배치했습니다. 그 죄송합니다. xyz 안녕하세요 세계 1 Helloworld 2 helloworld를 3 – Technocrat

답변

0

로 둘러싸인 텍스트를 구문 분석하는 지정하지만,

let $content := 
<td> 
     <a href ="hw1">xyz </a> 
      Hello world 1 
     <a href="hw2">Helloworld 2</a> 
      Helloworld 3   
</td> 

return $content/text() 

은 바로 아래에 당신에게 텍스트 노드를 제공하려면 어떻게 <td>. 당신이 얻는 것과 당신이 원하는 것의 차이점을 보지 못했습니다 ... 아마도 당신의 게시물은 어떤 포맷팅을 잃었을까요?