2009-06-24 5 views
14

크롤러는 내가 Heritrix 프로젝트 (http://crawler.archive.org/)을 발견누구나 확장 가능한 오픈 소스 웹 크롤러를 알고 계신가요?

(... 등 사전 파서, 파서) 새로운 단계를 구현처럼 내부 프로세스를 변경 할 수 있도록 확장 가능한 아키텍처를 가질 필요가있다.

그런 멋진 프로젝트가 있습니까?

+0

http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –

+0

@LFSR 컨설팅. 그것들은 다른 용도로 사용됩니다 ... – Zanoni

답변

14

Nutch은 무료 크롤러와 관련하여 할 수있는 최선의 방법입니다. Lucene (기업 규모의 방식) 개념으로 구축되었으며 대규모 데이터 쿼리의 경우 MapReduce (Google과 유사)을 사용하여 Hadoop 백엔드에서 지원됩니다. 훌륭한 제품! 저는 현재 새로운 (아직 공개되지 않은) Hadoop in Action manning에서 Hadoop에 관한 모든 것을 읽고 있습니다. 이 길로 가면 기술 검토 팀에이 제목의 초기 사본을 가져 오는 것이 좋습니다!

이들은 모두 Java 기반입니다. 만약 당신이 .net 녀석이라면 (나 같은!) 그러면 Lucene.NET, Nutch.NETHadoop.NET에 관심이있을 것입니다. 모두 클래스 별이며 api 포트는 C#입니다.

+0

Nutch와 Hadoop에 +1하면 분산되고 확장 가능한 솔루션을 찾고 있다면 solr을 볼 수도 있습니다. –

+4

Nutch.NET은 완전히 보이지 않으므로 다운로드 할 방법을 찾지 못했습니다. –

+0

Hadoop.NET에서도 마찬가지입니다. 다운로드 할 파일이 하나도 없습니다. –

0

최근에 - Nutch이라는 것을 발견했습니다.

0

플랫폼에 묶여 있지 않다면 나는 과거에 Nutch과 아주 좋은 경험을했습니다.

Java로 작성되었으며 Lucene 인덱서와 함께 사용됩니다.

1

Abot은 확장 성이 뛰어난 웹 크롤러입니다. 아키텍처의 모든 부분은 플러그 가능한 형태로 동작을 완벽하게 제어 할 수 있습니다. C#으로 작성된 상용 및 개인용 무료 오픈 소스.

https://github.com/sjdirect/abot