2
cyberneko 및 xerces를 사용하여 HTML을 치료하고 있습니다. ! 주어진혼합 유형 청소 <script> 태그
<script..../> <div> Some Text </div> <script> scripting stuff </script> ,
네코 스크립트로 위의 모든 라인을 구문 분석, 그래서 나는
를 얻을 그러나 , 일부 $ # @@ @@ 웹 사이트가 여전히 사용 모두<script>...</script> and <script.../>
그래서 무슨 일이있다
<script..../> < div > Some Text </div > < script > scripting stuff </script> ,
그리고는 나는 모든 내부 내용 :(
어떤 조언을 잃게?
LOL, 분명히 stackoverflow의 코드 파서는 동일한 문제가 있습니다. – Yossale
누구도