2008-09-22 13 views
7

우리 회사의 웹 응용 프로그램 중 하나를 크롤링하여 CD로 구워서 영업 사원이 웹 사이트를 데모하기 위해 사용할 수있는 정적 사이트를 만드는 방법을 찾아야합니다. 백엔드 데이터 저장소는 많은 시스템에 분산되어 있으므로 판매 사원의 랩톱에서 VM으로 사이트를 실행하는 것은 효과가 없습니다. 그리고 그들은 몇몇 클라이언트 (인터넷 없음, 셀룰라 전화 .... 원시적 인, 나는 알고있다)에있는 동안 인터넷에 접근 할 수 없을 것이다.어떻게 동적 사이트를 CD에서 데모 할 수있는 정적 사이트로 전환합니까?

링크 정리, 플래시, 약간의 아약스, CSS 등을 처리 할 수있는 크롤러에 대한 권장 사항이 있습니까? 나는 확률이 희박하다는 것을 알고 있지만, 나는 내 자신의 도구를 작성하기 전에 여기에 질문을 던질 것이라고 생각했습니다.

+0

이것은 특정 사용자의 관점에서만 작동해야합니다. 따라서 크롤러는 미리 결정된 사용자로 인증 한 다음이 사용자가 볼 수있는대로 모든 것을 캡처해야합니다. –

답변

3

wget 또는 curl은 재귀 적으로 링크를 따라 가고 전체 사이트를 미러링 할 수 있으므로 좋은 방법 일 수 있습니다. 검색 엔진이나 데이터를 수정하는 것과 같은 진정한 대화 형 부분은 사용할 수 없습니다.

영업 사원의 랩톱에서 실행할 수있는 더미 백엔드 서비스를 만들 수 있습니까? 앱과 연결할 수 있습니까?

12

WebCrawler을 사용하면. 다음 중 하나 :

  • DataparkSearch는 GNU 일반 공중 사용 허가서에 따라 배포 된 크롤러 및 검색 엔진입니다.
  • GNU Wget은 C로 작성되고 GPL로 출시 된 명령 줄 운영 크롤러입니다. 일반적으로 웹 및 FTP 사이트를 미러링하는 데 사용됩니다.
  • HTTrack은 웹 크롤러를 사용하여 오프라인보기를 위해 웹 사이트의 미러를 만듭니다. 그것은 C로 작성되었으며 GPL로 배포됩니다.
  • ICDL 크롤러는 C++로 작성되었으며 컴퓨터의 무료 CPU 리소스만을 사용하는 웹 사이트 구문 분석 템플릿을 기반으로하는 웹 사이트를 크롤링하기위한 것입니다.
  • JSpider는 GPL하에 출시 된 설정 및 사용자 정의가 가능한 웹 스파이더 엔진입니다.
  • 는 Larbin는 안드레아스 Beder
  • Methabot에 의해 세바스티안 Ailleret
  • Webtools4larbin에 의해 속도에 최적화 된 웹 크롤러 및 명령 행 유틸리티 C로 작성과 2 절 BSD 라이센스로 배포합니다. 광범위한 구성 시스템, 모듈 시스템을 특징으로하며 로컬 파일 시스템, HTTP 또는 FTP를 통한 대상 크롤링을 지원합니다.
  • Jaeksoft WebSearch는 Apache Lucene을 기반으로하는 웹 크롤러 및 인덱서 빌드입니다. GPL v3 라이센스에 따라 배포됩니다.
  • Nutch는 Java로 작성되고 Apache 라이센스하에 출시 된 크롤러입니다. Lucene 텍스트 인덱싱 패키지와 함께 사용할 수 있습니다.
  • Pavuk은 X11 GUI 크롤러 (선택 사항)가있는 명령 줄 웹 미러 도구이며 GPL로 출시되었습니다. wget과 httrack에 비해 고급 기능이 많이 있습니다 (예 : 정규식 기반 필터링 및 파일 생성 규칙
  • WebVac은 Stanford WebBase Project에서 사용하는 크롤러입니다.
  • WebSPHINX (Miller and Bharat, 1998)는 멀티 스레드 웹 페이지 검색과 HTML 구문 분석을 구현하는 Java 클래스 라이브러리와 시작 URL을 설정하고 다운로드 한 데이터를 추출하고 기본 텍스트 기반 검색 엔진.
  • WIRE - 웹 정보 검색 환경 [15]은 C++로 작성되고 GPL에 따라 배포 된 웹 크롤러로, 페이지 다운로드를 예약하기위한 여러 정책과 다운로드 한 페이지에 대한 보고서 및 통계를 생성하기위한 모듈을 포함하여 사용되었습니다 웹 특성화.
  • LWP :: RobotUA (Langheinrich, 2004)는 Perl 5 라이센스하에 배포 된 잘 동작하는 병렬 웹 로봇을 구현하기위한 Perl 클래스입니다.
  • 웹 크롤러 .NET 용 오픈 소스 웹 크롤러 클래스 (C#으로 작성).
  • Sherlock Holmes Sherlock Holmes는 로컬 및 네트워크를 통해 텍스트 데이터 (텍스트 파일, 웹 페이지 등)를 수집하고 색인을 생성합니다. Holmes는 체코 웹 포털 Centrum에서 후원하고 상업적으로 사용합니다. Onet.pl에서도 사용됩니다.
  • 무료 분산 검색 엔진 인 YaCy는 피어 투 피어 네트워크 (GPL 라이선스) 원칙에 따라 개발되었습니다.
  • Ruya Ruya는 오픈 소스, 고성능 너비 우선, 레벨 기반 웹 크롤러입니다. 영어 및 일본어 웹 사이트를 정상적으로 크롤링하는 데 사용됩니다. GPL에 따라 배포되며 전적으로 파이썬 언어로 작성되었습니다. SingleDomainDelayCrawler 구현은 크롤링 지연으로 robots.txt를 준수합니다.
  • 범용 정보 크롤러 빠른 개발 웹 크롤러. 크롤링 데이터를 저장하고 분석합니다.
  • 에이전트 커널 크롤링 할 때 일정, 스레드 및 저장소 관리를위한 Java 프레임 워크.
  • 스파이더 뉴스, 펄에 거미를 만드는 것에 관한 정보.
  • Arachnode.NET은 전자 메일 주소, 파일, 하이퍼 링크, 이미지 및 웹 페이지를 비롯한 인터넷 콘텐츠를 다운로드, 인덱싱 및 저장하기위한 오픈 소스 무차별 웹 크롤러입니다. Arachnode.net은 SQL Server 2005를 사용하여 C#으로 작성되었으며 GPL에 따라 배포됩니다.
  • dine은 LGPL 하에서 릴리스 된 JavaScript로 프로그래밍 할 수있는 다중 스레드 Java HTTP 클라이언트/크롤러입니다.
  • Crawljax는 Ajax 응용 프로그램 내에서 다양한 탐색 경로와 상태를 모델링하는 '상태 - 흐름 그래프'를 동적으로 만드는 방법에 기반한 Ajax 크롤러입니다. Crawljax는 Java로 작성되고 BSD 라이센스하에 배포됩니다.
1

웹 서버를 CD에 굽지 않고 AJAX 요청과 같은 작업을 처리 할 수 ​​없다는 것은 이미 불가능하다고 말한 것으로 알고 있습니다.

wget은 사이트를 다운로드하고 ("재귀 적"으로 -r 매개 변수 사용) 보고서와 같은 동적 콘텐츠는 물론 제대로 작동하지 않으므로 단일 스냅 샷 만 얻습니다.

1

당신은 웹 서버의 해제를 실행하는 데 끝날 경우, 당신은 한 번 봐 걸릴 수도 있습니다 : 완료 그것은 당신이 WAMPP이 CD 떨어져 스택을 실행할 수 있습니다

ServerToGo

을, mysql/php/apache 지원. db는 실행시 현재 사용자의 temp 디렉토리에 복사되며 사용자가 아무것도 설치하지 않고 완전히 실행할 수 있습니다!

+0

이것은 유용 해 보입니다! 나는 이것이 WAMPP 스택에서도 실행될 수있는 CMS 시스템을 실행할 수 있어야한다고 생각합니다. –

+1

나는 이것을 수년 동안 보지 않았지만,이 페이지 (http://www.server2go-web.de/wiki/tutorials)에는 Joomla와 함께 Server2Go를 사용하는 방법에 대한 자습서가 있었지만 링크 그것은 죽었 기 때문입니다. 그러나 그들은 비슷한 설정 단계를 보여주는 Contrexx라는 독일어 CMS에 대한 자습서가 있습니다. –

0

아무도 복사 작업 명령을 붙여 넣지 않았기 때문에 ... 10 년 후 ... 시도 중입니다. : D

wget --mirror --convert-links --adjust-extension --page-requisites \ 
--no-parent http://example.org 

그것은 나를위한 매력처럼 작동했습니다.