자바 웹 사이트 스크랩

내가하려는 것은 URL 목록을 가져 와서 각 URL의 콘텐츠를 다운로드하는 것입니다 (색인 생성을 위해). 가장 큰 문제는 단순히 로그인 페이지로 리디렉션되는 페이스 북 이벤트와 같은 링크가 발생하면 해당 URL을 감지하고 건너 뛸 수 있어야한다는 것입니다. 이 목적을 위해 robots.txt 파일이있는 것 같습니다. 나는 heritrix를 들여다 보았다. 그러나 이것은 내가 필요로하는 것보다 더 많이 보인다. robots.txt에 대한 정보를 제공하고 그에 따라 사이트를 스크랩하는 간단한 도구가 있습니까?자바 웹 사이트 스크랩

(또한, 나는, 그냥 인덱스 목록에서 개별 페이지를 필요로 추가 링크를 따라 깊은 인덱스를 구축 할 필요가 없습니다.)

출처

2010-07-07 smurthas

당신은 당신이 관심있는 수업을 할 수 ie http://crawler.archive.org/xref/org/archive/crawler/datamodel/Robotstxt.html

출처

2010-07-07 18:22:09

나는 약간 더 1 개의 포장에서 완전히 한 무언가를 희망하는 약간이었다. heritrix가 직업에 대한 올바른 것일 수도 있습니다. 아마도 조금만 더 방향을 잡을 필요가 있습니다. – smurthas

색인으로 정확히 무엇을 의미하는지 대답하기가 어렵습니까? 다운로드 만하면됩니다. 클래스 URL과 메서드 openConnection이 수행됩니다. http://download.oracle.com/docs/cd/E17476_01/javase/1.4.2/docs/api/java/net/URL.html#openConnection%28%29 –

좀 더 살펴보고 싶습니다. 그냥 다운로드하십시오. 이 페이지가 유익한 페이지인지 (예 : 유료 벽이나 로그인 화면 등에 없는지) 확인한 다음 html을 다운로드하고 마지막으로 색인 생성을 위해 일반 텍스트를 추출 할 수 있는지 확인하고 싶습니다. 지금 가장 큰 문제는 페이지가 의미있는 것인지를 알아내는 것입니다. – smurthas

답변

관련 문제