web-crawler

0열

1답변

크기가 최적화되어 있지 않지만 동일한 유형의 웹 사이트와 비교할 때 평균로드 시간이있는 경우 웹 사이트가 검색 엔진 순위 또는 결과 위치에 영향을 받는지 궁금합니다. 수 있습니다 말 No Cache: 289.0K Total size 35 HTTP requests

2열

1답변

색인 생성 봇을 포함하는 검색 엔진이 있습니까? 특정 특성을 가진 봇에 공급하여 특별 카탈로그를 작성하는 데 사용할 수 있습니까?

우리의 응용 프로그램 (C#/.NET)은 많은 쿼리를 검색해야합니다. 하루에 Google의 5 만 정책으로는 충분하지 않습니다. 우리는 우리가 설정 한 특정 규칙 (예 : 국가 도메인)에 따라 인터넷 웹 사이트를 크롤링하고 URL, 텍스트, 키워드, 웹 사이트 이름을 수집하고 자체 내부 카탈로그를 작성하여 대규모 외부 검색 엔진에 국한되지 않도록해야합니다

-1열

1답변

페이지를 크롤링 할 때 CacheBuster 쿼리를 감지합니다.

저는 꽤 잘 작동하는 매우 간단한 크롤링 엔진을 조합했으며 대부분 순환 루프 트랩에 걸리지 않았습니다. (즉, 페이지 A 링크는 페이지 B와 페이지 B는 페이지 A 링크). 두 번째 페이지가 캐시 버스터 쿼리 문자열로 서로 링크 될 때만이 루프에서 멈추게됩니다. 기본적으로 새로 고침 당 각각의 링크마다 고유 한 쿼리 문자열입니다. 이렇게하면 페이지가 항상

8열

2답변

HttpBrowserCapabilities.Crawler 속성 .NET

HttpBrowserCapabilities.Crawler 속성 (http://msdn.microsoft.com/en-us/library/aa332775(VS.71).aspx)은 어떻게 작동합니까? 파트너의 사용자 지정 크롤러를 감지해야하며이 속성은 false를 반환합니다. 어디에서이 사용자 에이전트를 추가하여이 속성이 true를 반환 할 수 있습니까? 메커

14열

6답변

Apache 웹 서버의 모든 사이트에 대한 검색 크롤러를 차단할 수 있습니까?

몇 개의 웹 사이트에 대한 프로덕션 코드의 복사본을 실행하는 공용 인터넷에 준비 서버가 있습니다. 스테이징 사이트에 색인이 생성되면 정말 마음에 들지 않습니다. 검색 엔진 크롤러를 차단하기 위해 준비 서버에서 내 httpd.conf를 수정할 수있는 방법이 있습니까? 스크립트를 사용하여 두 서버에 동일한 코드 기반을 복사하기 때문에 robots.txt를 변경

18열

3답변

Robots.txt : 주요 SE 만 허용

robots.txt를 구성하여 사이트가 Google, Yahoo!의 방문 만 허용하도록 할 수 있습니까? MSN 거미?

7열

5답변

.NET에는 신뢰할 수있는 Asynchronouos 소켓 통신이 없습니까?

한 번 .NET에 크롤러를 작성했습니다. 확장 성을 향상시키기 위해 .NET의 비동기 API를 활용하려고했습니다. System.Net.HttpWebRequest에는 비동기 API 인 BeginGetResponse/EndGetResponse가 있습니다. 그러나이 API 쌍은 HTTP 응답 헤더와 스트림 인스턴스를 가져 와서 HTTP 응답 내용을 추출 할 수

0열

1답변

watin을 사용하여 버튼 목록을 얻으려면 어떻게해야합니까?

Watin을 사용하여 웹 사이트에서 사용 가능한 버튼 목록을 얻으려면 어떻게해야합니까? watinTestRecorder는 어떻게합니까?

3열

2답변

웹 크롤러를 가장 잘 개발하는 방법

나는 정보를 컴파일하기 위해 일부 크롤러를 만드는 데 익숙하다. 그리고 나는 웹 사이트에 올 때마다 그 사이트에 맞는 새로운 크롤러를 시작한다. 대부분의 시간과 때로는 셸 스크립트를 사용한다. . 내가 할 방법은 페이지 목록을 반복하는 간단한 for 함께하는 wget는 다운로드 않고 sed, tr, awk 또는 페이지를 청소하고 내가 필요한 특정 정보를 잡

0열

3답변

브라우저 및 검색 엔진 스파이더의 XHTML 지원의 현재 수준은 무엇입니까?

IE 사례를 무시하면 application/xhtml + xml 콘텐츠 유형을 이해할 수없는 다른 브라우저가 있습니까? 그리고 검색 엔진 거미는 어떨까요? 웹에 몇 년되지 않았으므로 부정확 한 답변을 찾지 못했습니다. 편집 : 어떻게 든 관련 질문 : What problem does XHTML strict solve?