2017-05-06 8 views
0

나는 과학 및 학술지를 기술하는 데 사용되는 모든 HTML 메타 태그를 카탈로그 화하기위한 연구 프로젝트를 완료하고 있습니다. 더블린 코어, 오픈 그래프, 프리즘, 인용문, biblio 등.edu.uci.ics.crawler4j.crawler.WebCrawler를 사용하여 모든 HTML 메타 태그를 찾는 방법

나는 edu.uci.ics.crawler4j.crawler.WebCrawler을 사용하고 있으며 소수의 씨앗 URL에 대해 작동하도록했습니다.

내 문제는 시드 URL의 더 큰 목록이 필요합니다.

어떤 옵션이 있습니까?

웹에서 저널 웹 사이트를 수동으로 검색해야합니까? 아니면 시드 사이트를 발견하기 위해 crawler4j과 비슷한 것을 사용할 수 있습니까? 좋은 씨앗을 생성

답변

3

는 (전용 학술지보고 등), 특히 필드 별 작업을 위해, Web-Crawling의 분야에 대한 일반적인 문제입니다.

  • 는 오픈 웹 디렉토리를 사용하여 (예를 들어 DMOZ, ...) 또는 잘 알려진 저널 사전 분류 씨앗 포인트를 수확하는 저널리스트 (예를 들어, Reuters List) : 일반적으로, 몇 가지 옵션이 있습니다.

  • 이론상 큰 검색 엔진은 WWW의 상당 부분을 수집했습니다. 반자동을 수행하면 미리 정의 된 쿼리를 검색하고 해당 조회를 처리 할 수 ​​있습니다. 그러나,이 몇 가지 더 복잡한 기술로 이어질 수있는 웹 크롤링 (예 : focused crawling) 옵션이 될 것

:

  • 사용 crawler4j은 당신이 좋아하는 분야에 대한 Reuters에서 저널 이름을 수집 조사 할.
  • 이 목적으로 저널 목록을 살펴보아야합니다. business journal list. 저널 이름은 항상 h4 태그에 있으며 쉽게 추출 할 수 있습니다.
  • 이름을 추출한 후에는 해당 URL을 찾아야합니다. 이를 위해 위의 검색 엔진 접근 방식을 사용할 수 있습니다. 높은 확률로 첫 번째 히트는 저널의 웹 페이지 여야합니다.