html-parsing

    3

    1답변

    현재 nutch 1.0에 대한 사용자 정의 플러그인을 작성하려고합니다. 이 플러그인은 HTML 데이터를 구문 분석하고 문서에서 관련 정보를 필터링합니다. 기본 플러그인 작동, HtmlParserResult 개체를 확장하고 구문 분석 할 때마다 실행됩니다. 내 문제는 지금이 직면하고 있습니다 : 내가 충분히 좋은 구문 분석 nutch의 워크 플로우/pipli

    2

    1답변

    나는 각각을 인라인 CSS로 간단한 html을 이해하는 속성 언어로 변환 할 수 있도록 html과 CSS 레이아웃을 파싱해야합니다. html 요소 그런 작업에 어떻게 접근합니까?

    45

    4답변

    복잡한 웹 페이지의 테이블을 구문 분석하기 위해 HTML 민첩성 팩을 사용하고 싶지만 개체 모델에서 어떻게 든 사라졌습니다. 링크 예제를 살펴 보았지만 이런 식으로 테이블 데이터를 찾지 못했습니다. XPath를 사용하여 테이블을 가져올 수 있습니까? 기본적으로 테이블을 가져 오는 방법에 대한 데이터를로드 한 후에 기본적으로 손실됩니다. 이전에 Perl에서이

    0

    3답변

    나는 html + css 파일을 이해하고 그것을의 rtf layot와 같은 것으로 변환해야합니다. 이제 html 파서의 somekind가 필요하다는 것을 이해하지만 거기 있니? 어떻게 html-css 변환기를 구현할 수 있습니까? 그런 일에 부계 나 방법 중 어떤 것이 있습니까 ?

    6

    4답변

    안녕하세요, 제가하고 싶은 것은 첫 번째 단락의 내용입니다. <p>Paragraph 1</p><p>Paragraph 2</p><p>Paragraph 3</p> 내가 실행 해요 문제는 내가 처음 <p> 태그와 첫 번째 닫기 </p> 태그 사이에 모든 것을 잡기 위해 정규식을 쓰고 있다는 것입니다 : 문자열 $blog_post는 다음과 같은 형식의 단락을

    3

    7답변

    자바에서 약간의 문제가 있습니다. 이 작업을 수행하는 방법 : HTML 파일에서 href 및 src 태그를 검색 한 다음 해당 태그와 연결된 URL을 가져 오려고합니다. 가장 좋은 방법은 무엇입니까? 도움 주셔서 감사합니다. 감사합니다.

    2

    1답변

    잘못된 HTML 코드에서 깨끗한 XML 트리 (이상적으로 System.Xml.XmlDocument)를 생성 할 수있는 .NET 라이브러리를 찾고 있습니다. I.E. 이 상황에 직면했을 때 최선의 노력으로 추측, 수리 및 대체 브라우저를 수행하고 XmlDocument를 생성해야합니다. 도서관도 잘 관리되어야합니다. :) 나는 이것이 많이 (너무 많습니까?)