web-crawler

    0

    1답변

    크기가 최적화되어 있지 않지만 동일한 유형의 웹 사이트와 비교할 때 평균로드 시간이있는 경우 웹 사이트가 검색 엔진 순위 또는 결과 위치에 영향을 받는지 궁금합니다. 수 있습니다 말 No Cache: 289.0K Total size 35 HTTP requests

    2

    1답변

    우리의 응용 프로그램 (C#/.NET)은 많은 쿼리를 검색해야합니다. 하루에 Google의 5 만 정책으로는 충분하지 않습니다. 우리는 우리가 설정 한 특정 규칙 (예 : 국가 도메인)에 따라 인터넷 웹 사이트를 크롤링하고 URL, 텍스트, 키워드, 웹 사이트 이름을 수집하고 자체 내부 카탈로그를 작성하여 대규모 외부 검색 엔진에 국한되지 않도록해야합니다

    -1

    1답변

    저는 꽤 잘 작동하는 매우 간단한 크롤링 엔진을 조합했으며 대부분 순환 루프 트랩에 걸리지 않았습니다. (즉, 페이지 A 링크는 페이지 B와 페이지 B는 페이지 A 링크). 두 번째 페이지가 캐시 버스터 쿼리 문자열로 서로 링크 될 때만이 루프에서 멈추게됩니다. 기본적으로 새로 고침 당 각각의 링크마다 고유 한 쿼리 문자열입니다. 이렇게하면 페이지가 항상

    8

    2답변

    HttpBrowserCapabilities.Crawler 속성 (http://msdn.microsoft.com/en-us/library/aa332775(VS.71).aspx)은 어떻게 작동합니까? 파트너의 사용자 지정 크롤러를 감지해야하며이 속성은 false를 반환합니다. 어디에서이 사용자 에이전트를 추가하여이 속성이 true를 반환 할 수 있습니까? 메커

    14

    6답변

    몇 개의 웹 사이트에 대한 프로덕션 코드의 복사본을 실행하는 공용 인터넷에 준비 서버가 있습니다. 스테이징 사이트에 색인이 생성되면 정말 마음에 들지 않습니다. 검색 엔진 크롤러를 차단하기 위해 준비 서버에서 내 httpd.conf를 수정할 수있는 방법이 있습니까? 스크립트를 사용하여 두 서버에 동일한 코드 기반을 복사하기 때문에 robots.txt를 변경

    18

    3답변

    robots.txt를 구성하여 사이트가 Google, Yahoo!의 방문 만 허용하도록 할 수 있습니까? MSN 거미?

    7

    5답변

    한 번 .NET에 크롤러를 작성했습니다. 확장 성을 향상시키기 위해 .NET의 비동기 API를 활용하려고했습니다. System.Net.HttpWebRequest에는 비동기 API 인 BeginGetResponse/EndGetResponse가 있습니다. 그러나이 API 쌍은 HTTP 응답 헤더와 스트림 인스턴스를 가져 와서 HTTP 응답 내용을 추출 할 수

    0

    1답변

    Watin을 사용하여 웹 사이트에서 사용 가능한 버튼 목록을 얻으려면 어떻게해야합니까? watinTestRecorder는 어떻게합니까?

    3

    2답변

    나는 정보를 컴파일하기 위해 일부 크롤러를 만드는 데 익숙하다. 그리고 나는 웹 사이트에 올 때마다 그 사이트에 맞는 새로운 크롤러를 시작한다. 대부분의 시간과 때로는 셸 스크립트를 사용한다. . 내가 할 방법은 페이지 목록을 반복하는 간단한 for 함께하는 wget는 다운로드 않고 sed, tr, awk 또는 페이지를 청소하고 내가 필요한 특정 정보를 잡

    0

    3답변

    IE 사례를 무시하면 application/xhtml + xml 콘텐츠 유형을 이해할 수없는 다른 브라우저가 있습니까? 그리고 검색 엔진 거미는 어떨까요? 웹에 몇 년되지 않았으므로 부정확 한 답변을 찾지 못했습니다. 편집 : 어떻게 든 관련 질문 : What problem does XHTML strict solve?