2012-09-11 5 views
2

나는 HTML 문서를 파싱 할 필요가있는 제품을 만들고있다. Jericho, TagSoup, Jsoup 및 Crawl4J를 찾았습니다. 쿼츠를 사용하는 멀티 스레드 환경에서이 프로세스를 실행해야하므로 HTML을 파싱하려면 어떤 파서를 사용해야합니까?어떤 html 파서를 사용해야합니까?

한 번에 10 개의 스레드가 메모리에서 실행되는 경우 적은 메모리를 사용하는 API가 필요합니다. 여리고에서는 텍스트 기반 검색 API이고 메모리를 적게 소비한다고 읽었습니다. 내가 맞습니까? 아니면 다른 사람을 찾아 가야하니 왜?

답변

2

테스트하여 메모리 풋 프린트를 확인하십시오. 구문 분석 할 HTML을 모르고 테스트하지 않고도 메모리 프로파일에 대한 예측을 내리기가 어렵습니다.

FFIW, 저는 여러 시스템에서 Jsoup를 사용했으며 실제로 잘 작동한다는 것을 알았습니다. 나는 그것으로 만연한 기억 문제를 결코 알아 채지 못했다. ,

0

나는 "JSoup을 사용하고 있습니다 그리고 그것은 빠른 구문 분석에서 사악한입니다. 매우 감동, 그리고 콘텐츠의 패턴 매칭은 XPath를보다 유지 보수.

을 처음 Validator.nu의 파서를 시도 훨씬 더 쉽게 CSS 스타일이다 그것은 매우 부족한 발견 된 문서는 매우 얇고 내가 제대로 크롬에서 잘 작동 XPath의 실행 가져올 수 없습니다

을 또한,이 질문에 체크 아웃 :.. Which HTML Parser is the best?