html-parsing

3열

1답변

nutch 1.0 및 사용자 정의 플러그인을 사용하여 html 데이터 구문 분석

현재 nutch 1.0에 대한 사용자 정의 플러그인을 작성하려고합니다. 이 플러그인은 HTML 데이터를 구문 분석하고 문서에서 관련 정보를 필터링합니다. 기본 플러그인 작동, HtmlParserResult 개체를 확장하고 구문 분석 할 때마다 실행됩니다. 내 문제는 지금이 직면하고 있습니다 : 내가 충분히 좋은 구문 분석 nutch의 워크 플로우/pipli

2열

1답변

HTML과 CSS를 구문 분석하여 페이지의 레이아웃을 이해하는 방법 (자바)

나는 각각을 인라인 CSS로 간단한 html을 이해하는 속성 언어로 변환 할 수 있도록 html과 CSS 레이아웃을 파싱해야합니다. html 요소 그런 작업에 어떻게 접근합니까?

45열

4답변

HTML 민첩성 팩 - 구문 분석 테이블

복잡한 웹 페이지의 테이블을 구문 분석하기 위해 HTML 민첩성 팩을 사용하고 싶지만 개체 모델에서 어떻게 든 사라졌습니다. 링크 예제를 살펴 보았지만 이런 식으로 테이블 데이터를 찾지 못했습니다. XPath를 사용하여 테이블을 가져올 수 있습니까? 기본적으로 테이블을 가져 오는 방법에 대한 데이터를로드 한 후에 기본적으로 손실됩니다. 이전에 Perl에서이

0열

3답변

자바 구문 분석 html + css 및 다른 lang 출력을 변환

나는 html + css 파일을 이해하고 그것을의 rtf layot와 같은 것으로 변환해야합니다. 이제 html 파서의 somekind가 필요하다는 것을 이해하지만 거기 있니? 어떻게 html-css 변환기를 구현할 수 있습니까? 그런 일에 부계 나 방법 중 어떤 것이 있습니까 ?

6열

4답변

HTML 태그의 내용을 가져 오는 방법은 무엇입니까?

안녕하세요, 제가하고 싶은 것은 첫 번째 단락의 내용입니다. Paragraph 1Paragraph 2Paragraph 3 내가 실행 해요 문제는 내가 처음 태그와 첫 번째 닫기 태그 사이에 모든 것을 잡기 위해 정규식을 쓰고 있다는 것입니다 : 문자열 $blog_post는 다음과 같은 형식의 단락을

3열

7답변

HTML 파일에서 일부 태그를 검색하는 방법은 무엇입니까?

자바에서 약간의 문제가 있습니다. 이 작업을 수행하는 방법 : HTML 파일에서 href 및 src 태그를 검색 한 다음 해당 태그와 연결된 URL을 가져 오려고합니다. 가장 좋은 방법은 무엇입니까? 도움 주셔서 감사합니다. 감사합니다.

2열

1답변

HTML 태그 스프에서 .NET XmlDocument를 생성하는 라이브러리

잘못된 HTML 코드에서 깨끗한 XML 트리 (이상적으로 System.Xml.XmlDocument)를 생성 할 수있는 .NET 라이브러리를 찾고 있습니다. I.E. 이 상황에 직면했을 때 최선의 노력으로 추측, 수리 및 대체 브라우저를 수행하고 XmlDocument를 생성해야합니다. 도서관도 잘 관리되어야합니다. :) 나는 이것이 많이 (너무 많습니까?)