web-crawler

19열

8답변

내가 (단지 몇 백 개 사이트) C#에서 제한된 웹 크롤러를 구현하기 위해 노력하고있어

HttpWebResponse 클래스 +에서는 StreamReader 매우 느린 HttpWebResponse.GetResponse()와 Streamreader.ReadToEnd는(), 또한 StreamReader.Read를 사용하여 시도하여() 내 HTML 문자열을 작성하는 루프. 약 5-10K 페이지 만 다운로드 중입니다. 모두 매우 느립니다! 예를 들어

1열

1답변

Google 검색 결과를 다운로드하는 방법?

사과가 너무 무식하거나 질문이있는 경우 사과드립니다. 피상적 인 표정이 정확히 일치하는 것을 찾지 못했습니다. 질문 : Google에서 색인을 생성 한 모든 Word 문서를 다운로드하려면 어떻게해야합니까? 정말로 손으로하는 것은 매우 어려운 일입니다 ... 모든 조언을 해주셔서 감사합니다.

1열

1답변

백 링크보고 웹 사이트 크롤러?

웹 사이트를 크롤링하고 각 페이지에 링크 된 웹 사이트의 페이지 목록을보고하는 데 사용할 수있는 도구는 무엇입니까?

2열

8답변

웹 크롤링 및 제한점

직접 URL을 알고있는 경우 공개적으로 평가할 수있는 파일을 웹에 배치한다고 가정 해 보겠습니다. 파일을 가리키는 링크가 없으며 서버에서도 디렉토리 목록이 비활성화되었습니다. 공개적으로 액세스 할 수있는 동안이 파일의 정확한 URL을 입력하는 것 외에는 페이지에 연결할 수있는 방법이 없습니다. 어떤 종류의 웹 크롤러 (좋거나 악의적 인)가 파일을 크롤링 한

4열

3답변

적대적인 웹 크롤러 식별

불법 사용에 대한 정보를 수집하는 웹 크롤러를 식별 할 수있는 기술이 있는지 궁금합니다. 명확하게 말해서, 사이트의 카본 복사본을 만드는 데이터 도용. 이 시스템은 알 수없는 소스 (Google 크롤러 등의 목록에없는 경우)에서 크롤링 패턴을 감지하고 긁적 크롤러에게 가짜 정보를 보냅니다. 방어자로서 정기적으로 사이트를 치는 알 수없는 크롤러를 발견하면 공

0열

3답변

URL 대기열 작성

대규모 웹 크롤러에 URL 대기열을 작성하는 것이 좋습니다. 링크 된 목록 또는 또는 B- 트리?

4열

2답변

nutch 크롤링 파일 시스템을 만드는 방법?

HTTP를 기반으로하지 , http://localhost:81 같은 등, 하지만 직접 로컬 파일 시스템의 특정 디렉토리를 크롤링, 아웃 방법이 있습니까?

4열

3답변

크롤러가 최대 적용 범위를 어떻게 보장합니까?

웹 크롤링에 대한 기사를 읽고 크롤링의 기본 사항을 배웠습니다. 그들에 따르면, 웹 크롤러는 다른 웹 페이지에서 검색된 URL을 사용하여 실제로는 메시 (메시)를 사용합니다. 크롤러가 어떻게 최대 수용 범위를 보장합니까? 분명히 다른 페이지/사이트의 추천 링크가없는 많은 사이트가있을 수 있습니다. 검색 엔진이 크롤링 및 수동 등록 이외의 다른 메커니즘을 따

1열

3답변

PHP로 제출 된 URL에서 Digg의 이미지 제안을 복제하십시오.

그래서 저는 digg에서 볼 수있는 기능을 가장 잘 복제 할 수있는 아이디어를 찾고 있습니다. 근본적으로 관심있는 페이지의 URL을 제출하고 digg 다음에 크롤링하여 모든 IMG 태그 (특정 높이/너비 위에있는 몇 개만 선택)를 찾은 다음 DOM을 통해 축소판을 만들고 제출 내용을 대표하고 싶습니다. 많은 것들이 있지만, 주로 제출 된 페이지에서 이미지를

3열

2답변

good webcrawler 'Etiquette'에 대한 지침

나는 재미있는 검색 엔진을 구축하고 있으며, 광고 및 각종 문제를 클릭하여 잠재적으로 내 작은 프로젝트가 악재가 될 수도 있음을 깨달았습니다. 좋은 웹 크롤러 '에티켓'에 대한 가이드 라인은 무엇입니까? 있는 robot.txt 지침 제한 광고 링크를 따라하지 마십시오 동일한 도메인에 대한 동시 요청의 수를 관찰 : 마음에 봄이 있음을 것? 광고를 클릭에서