나는 과학 및 학술지를 기술하는 데 사용되는 모든 HTML 메타 태그를 카탈로그 화하기위한 연구 프로젝트를 완료하고 있습니다. 더블린 코어, 오픈 그래프, 프리즘, 인용문, biblio 등.edu.uci.ics.crawler4j.crawler.WebCrawler를 사용하여 모든 HTML 메타 태그를 찾는 방법
나는 edu.uci.ics.crawler4j.crawler.WebCrawler
을 사용하고 있으며 소수의 씨앗 URL에 대해 작동하도록했습니다.
내 문제는 시드 URL의 더 큰 목록이 필요합니다.
어떤 옵션이 있습니까?
웹에서 저널 웹 사이트를 수동으로 검색해야합니까? 아니면 시드 사이트를 발견하기 위해 crawler4j
과 비슷한 것을 사용할 수 있습니까? 좋은 씨앗을 생성