tag-soup

    0

    2답변

    나는이 C# 코드를 실행 ... using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Text.R

    2

    1답변

    Groovy의 XmlSlurper 태그가있는 HTML4를 구문 분석합니다. 태그 수는 Parser입니다. 노드의 text()이 성공적으로 표시되지만   공백은 다른 값과 동일한 지 테스트하려고 할 때 약간의 어려움을줍니다. 특히 .trim()은 실제로 모든 공백의 문자열을 자르지 않습니다. 값의 양쪽에있는 문자가 공백 (아래 코드 참조)이지만 St

    3

    1답변

    내 HTML 문서에서이 구조를 가지고 : <p> "<em>You</em> began the evening well, Charlotte," said Mrs. Bennet with civil self–command to Miss Lucas. "<em>You</em> were Mr. Bingley's first choice." </p>

    1

    1답변

    xml 파일 정리 예기치 않은 결과가 발생했습니다. tagsoup이 상위 태그를 너무 빨리 닫는 속성을 고아로 추가했습니다. 또한 부모 태그의 이름을 줄입니다. tagsoup 전에 : <Objects> <Object> <ObjectID>240</ObjectID> [...] <Status>Not Ready</Statu

    2

    1답변

    크롤러가 제공하는 동적 콘텐츠가있는 페이지가 있습니다. 그러나 때로는이 콘텐트는 HTML (닫기 태그없이, 열린 태그없이 닫힌 태그 등)에 문제가 있습니다. 따라서,이 잘못된 내용은 전체 페이지를 깨뜨리므로 안되는 것을 닫거나 열 수 있습니다. 일반적인 실수입니다. <div><p>foo</p> <p>bar</p></div> <p><a>link</p></a>

    1

    1답변

    TagSoup를 사용하여 HTML을 XHTML로 변환 할 수 있다는 인상하에있었습니다. tagsoup jar 파일을 tagsoup.jar로 저장했습니다. 다음 명령을 사용했습니다. wget -O usa_stock.html "http://markets.usatoday.com/custom/usatoday-com/new/html-mktscreener.asp#"

    0

    1답변

    하나 이상의 웹 페이지에서 정보를 긁어 낸 후 플래시 카드로 바꾸는 작은 프로그램을 다시 작성하려고합니다. 여기에 작은 조각 : -- | this takes a string and produces IO [Tag String] getVerbePage x = fmap parseTags $ openURL $ "http://leconjugueur.lefigaro

    3

    1답변

    Groovy에서 XML을 파싱하면 케이크 조각이어야하지만 항상 문제가 발생합니다. 나는이 같은 문자열을 구문 분석하고 싶습니다 : 나는 그것을 표준 방법 new XmlSlurper().parseText(body)을 수행 할 때 <html> <p> This is a <span>test</span> with <b>some</b> formatting

    0

    1답변

    HTML 파일을 XML 파일로 파싱하고 변환하는 데 사용되는 JDOM 파서입니다. html 파일 자체 종료 태그를 파싱 한 후 자식 노드가 있더라도 생성합니다. 입력 html로 <li id="fieldId1" fieldtype="dropdownFromList"> <span> <sflabel path="polProdCode"> <f

    2

    2답변

    나는 HTML 문서를 파싱 할 필요가있는 제품을 만들고있다. Jericho, TagSoup, Jsoup 및 Crawl4J를 찾았습니다. 쿼츠를 사용하는 멀티 스레드 환경에서이 프로세스를 실행해야하므로 HTML을 파싱하려면 어떤 파서를 사용해야합니까? 한 번에 10 개의 스레드가 메모리에서 실행되는 경우 적은 메모리를 사용하는 API가 필요합니다. 여리고에서