나는 HTML 문서를 파싱 할 필요가있는 제품을 만들고있다. Jericho, TagSoup, Jsoup 및 Crawl4J를 찾았습니다. 쿼츠를 사용하는 멀티 스레드 환경에서이 프로세스를 실행해야하므로 HTML을 파싱하려면 어떤 파서를 사용해야합니까?어떤 html 파서를 사용해야합니까?
한 번에 10 개의 스레드가 메모리에서 실행되는 경우 적은 메모리를 사용하는 API가 필요합니다. 여리고에서는 텍스트 기반 검색 API이고 메모리를 적게 소비한다고 읽었습니다. 내가 맞습니까? 아니면 다른 사람을 찾아 가야하니 왜?