web-crawler

0열

2답변

나는 많은 사이트를 새로운 서버로 옮기고있다. 아무 것도 놓치지 않고, 프로그램 목록에 프로그램 목록을 제공하고 모든 페이지/이미지를 다운로드 할 수 있기를 바란다. 이 작업을 수행 할 수있는 소프트웨어가 있습니까? 나는 또한 일부 WordPress 사이트의 복사본을 다운로드 할 수 있으므로 정적 파일을 업로드 할 수 있습니다 (일부 WP 사이트는 업데이트

0열

1답변

PHP cURL 인코딩 된 데이터를 가져 오는 중

cURL을 사용하여 페이지 머리글과 압축 본문을 하나의 문자열로 다운로드했습니다. 문제를 서로 분리하고 본문을 압축 해제하는 방법에 문제가 있습니까? 감사합니다. 과 같이 페이지를 가져 오는 전에 CURLOPT_ENCODING 컬 옵션을 설정

3열

1답변

데이터 저장소 및 대역폭 계산을위한 RSS/피드 파일의 평균 크기

20 분마다 약 10,00,000 개의 피드를 모니터링하는 데 필요한 네트워크 대역폭 및 데이터 저장소를 확인하기 위해 엔벨로프 계산을 수행합니다. 어떤 아이디어가 rss 파일의 평균 크기가 될 수 있습니까? 저는 technorati에서 RSS 파일의 평균 크기를 나타내는 어딘가를 읽었습니다. Ankur 굽타

1열

2답변

프록시 지원이있는 다중 스레드 스파이더 용 Python 패키지?

단지 urllib을 사용하는 대신 http 프록시를 통해 작동 할 수있는 URL을 빠르고 멀티 스레드로 다운로드하는 데 가장 효율적인 패키지를 아는 사람이 있습니까? 나는 Twisted, Scrapy, libcurl 등등과 같은 몇 가지를 알고 있지만 결정을 내릴 때 또는 프록시를 사용할 수 있다고하더라도 충분히 알지 못합니다. 누구든지 내 목적에 가장 적

2열

5답변

크롤링 된 웹 페이지의 스냅 샷을 프로그래밍 방식으로 가져 오는 방법 (루비에서 사용)?

프로그래밍 방식으로 웹 페이지의 스냅 샷을 찍는 최상의 솔루션은 무엇입니까? 상황은 이렇습니다 : 수동으로 이동하지 않고 여러 웹 페이지를 크롤링하고 몇 달에 한 번씩 주기적으로 축소판 스냅 샷을 찍고 싶습니다. 또한 완전히 플래시/플렉스가 될 수있는 웹 사이트의 jpg/png 스냅 샷을 찍을 수 있기를 원합니다. 그래서 어떻게 든 스냅 샷을 가져올 때까지

0열

5답변

어떤 프로그래밍 언어로 작성된 Googlebot 또는 기타 효율적인 웹 크롤러입니까?

Googlebot이 어떤 프로그래밍 언어로 작성되었는지 알고있는 사람이 있습니까? 더 일반적으로 어떤 언어로 효율적인 웹 크롤러를 작성합니까? 나는 자바 언어로 많은 것을 보아 왔지만, 너무 많은 오버 헤드를 만들어 내기 때문에 웹 크롤러를 개발하는 데 가장 적합한 언어가 아닌 것 같다. (Heritrix 웹 크롤러를 사용해 보았을 때 매우 무겁다.).

0열

2답변

mysql에 결과를 던지기위한 스파이더

스핑크스를 사용하여 사이트 검색을 시도하고 있지만 내 사이트가 모두 mysql에있는 것은 아닙니다. 휠을 재발견하는 대신 오픈 스파이더가 mysql 데이터베이스에 쉽게 포함되어 스핑크스가 색인을 생성 할 수 있도록하는 것이 궁금합니다. 어떤 조언을 주셔서 감사합니다.

4열

3답변

약 1000 개의 웹 사이트에서 데이터를 추출하고 파싱하기위한 웹 크롤러

나는 수천 개의 웹 사이트를 크롤링하려고합니다. 여기에서 나는 HTML 컨텐트에만 관심이 있습니다. 그리고 나는 몇 달 동안 Heritrix 2.0 크롤러를 사용 해왔다. 내가 관심이있는 특정 내용을 추출하는 XPath는 사용한 구문 분석하는 XML에 를 HTML 변환,하지만 난 엄청난 성능에 달렸다 , 메모리 및 안정성 문제 (매일 Heritrix가 충돌

0열

3답변

크롤링 뉴스 기사

대부분의 가장 큰 뉴스 출처에서 뉴스 기사를 크롤링 할 표준/API가 있는지 아는 사람이 있습니까? 저는 색인을 생성하기 위해 rss를 사용하고 있습니다. 그러나 나는 그것들을 단지 그들의 제목보다 더 많은 자료로 분류하고 싶습니다.

13열

4답변

알려진 웹 크롤러 목록이 있습니까?

웹 서버의 일부 파일에 대한 정확한 다운로드 수를 얻으려고합니다. 나는 사용자 에이전트를보고 일부는 분명히 봇이나 웹 크롤러이지만, 많은 사람들에게 많은 정보가 있습니다. 확실하지 않습니다. 웹 크롤러 일 수도 있고 아닐 수도 있습니다. 그리고 많은 다운로드를 유발하므로 알려줘야합니다. 사용자 에이전트, IP, 동작 등과 같은 일부 문서가있는 알려진 웹 크