web-crawler

    2

    1답변

    작은 웹 크롤러를 구축하고 있는데 실제 구현 (크롤링, 검색, 순위 없음, 분류 없음, 크롤링, 키스)에 대한 흥미로운 정보가 있으면 궁금합니다. 기록을 위해, 나는 이미 O'Reilly "Spidering hacks"와 No Starch Press "Webbots, spider, screen scrapers"를 가지고 있습니다. 이 책들은 우수하지만, 일

    0

    5답변

    cURL이 전체 파일을 다운로드한다는 것을 알고 있습니다. 정말로 원하는 것은 페이지의 모든 링크를 가져 와서 내 특정 기준, 링크 위치 등을 평가하고 해당 페이지를 잡고 정보를 분석해야하는지 결정하는 것입니다. 특히, 엔터테인먼트 이벤트와 관련된 링크를 찾고 데이터를 구문 분석하고이를 내 MySQL 데이터베이스에 저장하여 내 지역의 이벤트 용 웹 사이트를

    0

    2답변

    누구나 주어진 웹 사이트를 크롤링하고 메타 키워드 및 메타 설명 정보 만 반환 할 수있는 무료 온라인 도구를 알고 있습니까? mkdir temp cd temp wget -r SITE_ADDRESS 그런 다음, 키워드 :

    0

    2답변

    는 내 페이지에서 표준 단추의 모양을 사용하지만 나는 그들이 링크 인 것처럼 웹 크롤러를 따르십시오. 윌 구글과 다른 웹 크롤러 색인과 같이 링크가 웹 페이지? <form method="get" action="/mylink.html"><input style="font-size:10pt" id="my-link" type="submit" value="Learn

    5

    4답변

    서버에 과부하가 걸리지 않도록 크롤러가 동일한 서버에 반복적으로 방문하는 동안 대기해야하는 표준 시간대가 있습니까? 크롤러가 정중 한 것으로 간주 될 수있는 대기 기간이 될 수있는 사항에 대한 제안이 없으면 이 값은 서버마다 다르며 ... 그렇다면 어떻게 결정할 수 있습니까?

    3

    5답변

    자바 스크립트를 사용하여 데이터를 출력하는 웹 페이지를 다운로드하고 싶습니다. Wget은 다른 모든 것을 할 수 있지만 javascript를 실행하십시오. 같은 에도 무언가 : 파이어 폭스 -remote "적인 saveURL이 (www.mozilla.org, myfile.html에)" 이 좋은 것 (불행히도 명령의 종류가 존재하지 않습니다).

    3

    1답변

    내 응용 프로그램은 RSS/Atom 피드를 추적하고 데이터베이스에 새 항목을 저장해야합니다. 내 질문은 피드의 항목이 이미 크롤링되었는지 여부를 확인하는 가장 안정적인 방법은 무엇입니까? 나는 Universal Feed Parser 모듈을 사용하여 피드를 구문 분석합니다. 현재 구현은 feed.entry[i].updated_parsed의 최신 값을 기록하며

    2

    5답변

    현재 System.DirectoryServices 네임 스페이스를 사용하여 DirectoryEntry 개체를 만들고 정보를 수집하기 위해 전체 계층을 반복하는 응용 프로그램을 개발 중입니다. 내가 계층 구조의 각하여 DirectoryEntry 개체에 대한 자식 항목의 번호를 모르는, 그래서 어린이 재산 여기 을 통해 거미에 중첩 루프의 N 번호를 생성 할

    1

    4답변

    웹 사이트가 콘텐츠를 스파이더 링하는 경우 탐지하는 코드를 작성할 수 있습니까?

    4

    2답변

    그래서, 내가 생각한 자신이 생각한 일이 여기있다. 내가 방대한 양의 콘텐츠를 가지고 있다고 잠시 생각해보십시오. 내 웹 사이트가 내 콘텐츠에 연결되어 있는지 확인하고 싶습니다. TrackBack이나 PingBack을 들여다 볼 수는 있지만 그 문제를 처리 할 수있는 도구를 사용하지 않는 것은 무엇입니까? 웹 크롤러의 일부 양식이 원본 문서에 링크 된 페이