2010-04-26 3 views
2

cyberneko 및 xerces를 사용하여 HTML을 치료하고 있습니다. ! 주어진혼합 유형 청소 <script> 태그

<script..../> <div> Some Text </div> <script> scripting stuff </script> , 

네코 스크립트로 위의 모든 라인을 구문 분석, 그래서 나는

를 얻을 그러나 , 일부 $ # @@ @@ 웹 사이트가 여전히 사용 모두

<script>...</script> and <script.../> 

그래서 무슨 일이있다

<script..../> &lt div &gt Some Text &lt/div &gt &lt script &gt scripting stuff </script> , 

그리고는 나는 모든 내부 내용 :(

어떤 조언을 잃게?

+2

LOL, 분명히 stackoverflow의 코드 파서는 동일한 문제가 있습니다. – Yossale

+0

누구도