web-crawler

    7

    6답변

    저는 대학 과정 중 하나의 졸업 프로젝트를 진행하고 있으며, C#에서 작성한 여러 크롤러를 실행하기위한 장소가 필요합니다. 웹 호스팅 경험이 없기 때문에 조금 잃어 버렸습니다. 어떤 사이트에서 허용하는 것입니까? 서버에 대한 더 많은 액세스 권한을 제공하는 특별한 호스트가 필요합니까? 크롤러는 작업을 수행하는 간단한 응용 프로그램이며 정기적으로 정보를 원격

    1

    2답변

    정보를 얻기 위해 크롤링 페이지를 작성 중이며 Groovy에서 페이지 구문 분석과 관련된 많은 문제가 있습니다. 예를 들어, 나는 juniversal chardet를 사용하여 그냥 머리에 태그 페이지를 스캔 대부분의 시간을 작동 반 솔루션을했습니다,하지만 때로는 이러한 태그의 두 사람은 한 페이지에서 찾을 수 있습니다 : <meta http-equiv="C

    1

    3답변

    웹 응용 프로그램에서 모든 링크 또는 페이지를 찾을뿐만 아니라 앱에서 허용되는 모든 작업 (예 : 버튼 누르기, 양식 채우기, DOM이 요청을 트리거하지 않은 경우에도 DOM에서 변경 사항을 알 수 있습니다.) 기본적으로 이것은 일종의 "브라우저 시뮬레이터"입니다. WebKit은 필요한 기술 (Javascript 엔진, 파서, DOM 조작 등)을 모두 갖추

    9

    1답변

    검색 엔진 및 웹 사이트 크롤러의 경우 URL 순서가 XML 사이트 맵에서 중요합니까? 현재 Sitemap이 생성 될 때 데이터베이스의 고유 ID를 사용하여 순차적으로 웹 사이트 URL을 주문합니다. 나는 순서대로 URL을 주문해야합니까? 순차 사이트 맵 <urlset> <url> <loc>http://example.com/</loc>

    0

    4답변

    URL, 추천 코드, 세션, 시간 등을 로깅하여 페이지 뷰를 매우 기초적으로 추적하고 있지만 로봇 (Google, Yahoo 등)에 폭격을 가하고 있습니다. 나는 효과적인 방법이이 통계를 걸러 낼지 또는 기록하지 않는지 궁금합니다. 나는 로봇 IP 목록 등을 실험했지만 이것이 절대 안전한 것은 아닙니다. robots.txt, htaccess, PHP 서버

    0

    2답변

    에 필수 agecheck 페이지에 걸리면 현재 존재하지 않는다면, 당신은 agecheck 페이지로 리디렉션됩니다. 지금 우리는 크롤러가이 부분에 걸려서 agecheck로 리디렉션되고 완전한 웹 사이트를 크롤링하지 못한다고 생각합니다. 누군가 전에 이걸 가지고 있었나요? 이런 일을 처리하는 가장 좋은 방법은 무엇일까요? 샌더 편집 나는이 지금, 크롤러와 문제

    2

    3답변

    나는 비교적 간단한 경우가 있습니다. 기본적으로 다양한 웹 사이트 간의 링크에 대한 데이터를 저장하고 도메인을 제한하고 싶지는 않습니다. 일부 http 클라이언트 라이브러리를 사용하여 내 크롤러를 작성할 수는 있지만 일부 불필요한 작업을 수행 할 것이라고 생각합니다. 페이지를 한 번 이상 검사하지 않고 robots.txt 파일을 읽고 사용하는 방법을 배우고

    0

    2답변

    웹 크롤러는 쿠키를 사용합니까, 아니면 버립니다.

    3

    3답변

    나는 이것을 구현하는 좋은 방법을 찾고있었습니다. 나는 특정 웹 사이트 집합을 돌아 다니고 모든 mp3 링크를 데이터베이스로 크롤링 할 간단한 웹 사이트 크롤러를 연구 중이다. 파일을 다운로드하지 않고 링크를 크롤링하고 색인을 생성하며 검색 할 수 있습니다. 지금까지 일부 사이트에서는 성공했지만 URL 리디렉션과 크롤러를 혼란스럽게하는 콘텐츠를 사용하는 사

    2

    1답변

    이벤트 호출로 doPostBack을 사용하는 일부 ASP.NET 페이지를 크롤링하는 방법이 있습니까? 예 : Page1.aspx라는 : 는 Page2.aspx 리디렉션 1 개의 LinkButton을 포함 코드 숨김 하는 LinkButton 클릭에 대한 이벤트 : Response.Redirect("Page2.aspx") 클라이언트 측에서이 코드는 클릭 이