web-crawler

2열

1답변

작은 웹 크롤러를 구축하고 있는데 실제 구현 (크롤링, 검색, 순위 없음, 분류 없음, 크롤링, 키스)에 대한 흥미로운 정보가 있으면 궁금합니다. 기록을 위해, 나는 이미 O'Reilly "Spidering hacks"와 No Starch Press "Webbots, spider, screen scrapers"를 가지고 있습니다. 이 책들은 우수하지만, 일

0열

5답변

웹 크롤링 및 링크 평가

cURL이 전체 파일을 다운로드한다는 것을 알고 있습니다. 정말로 원하는 것은 페이지의 모든 링크를 가져 와서 내 특정 기준, 링크 위치 등을 평가하고 해당 페이지를 잡고 정보를 분석해야하는지 결정하는 것입니다. 특히, 엔터테인먼트 이벤트와 관련된 링크를 찾고 데이터를 구문 분석하고이를 내 MySQL 데이터베이스에 저장하여 내 지역의 이벤트 용 웹 사이트를

0열

2답변

웹 사이트를 크롤링하고 모든 페이지의 모든 메타 정보를 검색하는 온라인 도구

누구나 주어진 웹 사이트를 크롤링하고 메타 키워드 및 메타 설명 정보 만 반환 할 수있는 무료 온라인 도구를 알고 있습니까? mkdir temp cd temp wget -r SITE_ADDRESS 그런 다음, 키워드 :

0열

2답변

웹 페이지의 버튼 사용. Google 색인에 링크가 있습니까?

는 내 페이지에서 표준 단추의 모양을 사용하지만 나는 그들이 링크 인 것처럼 웹 크롤러를 따르십시오. 윌 구글과 다른 웹 크롤러 색인과 같이 링크가 웹 페이지? <form method="get" action="/mylink.html"><input style="font-size:10pt" id="my-link" type="submit" value="Learn

5열

4답변

웹 크롤러가 웹 서버에 반복적으로 요청할 때까지 대기하는 최적의 기간은 무엇입니까?

서버에 과부하가 걸리지 않도록 크롤러가 동일한 서버에 반복적으로 방문하는 동안 대기해야하는 표준 시간대가 있습니까? 크롤러가 정중 한 것으로 간주 될 수있는 대기 기간이 될 수있는 사항에 대한 제안이 없으면 이 값은 서버마다 다르며 ... 그렇다면 어떻게 결정할 수 있습니까?

3열

5답변

콘텐츠를 생성하기 위해 자바 스크립트를 사용하는 웹 페이지 저장/미러링/크롤링

자바 스크립트를 사용하여 데이터를 출력하는 웹 페이지를 다운로드하고 싶습니다. Wget은 다른 모든 것을 할 수 있지만 javascript를 실행하십시오. 같은 에도 무언가 : 파이어 폭스 -remote "적인 saveURL이 (www.mozilla.org, myfile.html에)" 이 좋은 것 (불행히도 명령의 종류가 존재하지 않습니다).

3열

1답변

피드 크롤링 방법

내 응용 프로그램은 RSS/Atom 피드를 추적하고 데이터베이스에 새 항목을 저장해야합니다. 내 질문은 피드의 항목이 이미 크롤링되었는지 여부를 확인하는 가장 안정적인 방법은 무엇입니까? 나는 Universal Feed Parser 모듈을 사용하여 피드를 구문 분석합니다. 현재 구현은 feed.entry[i].updated_parsed의 최신 값을 기록하며

2열

5답변

DirectoryEntry 또는 임의의 개체 계층 구조를 반복 - C#

현재 System.DirectoryServices 네임 스페이스를 사용하여 DirectoryEntry 개체를 만들고 정보를 수집하기 위해 전체 계층을 반복하는 응용 프로그램을 개발 중입니다. 내가 계층 구조의 각하여 DirectoryEntry 개체에 대한 자식 항목의 번호를 모르는, 그래서 어린이 재산 여기 을 통해 거미에 중첩 루프의 N 번호를 생성 할

1열

4답변

웹 사이트 스파이더 링 자동 감지

웹 사이트가 콘텐츠를 스파이더 링하는 경우 탐지하는 코드를 작성할 수 있습니까?

4열

2답변

콘텐츠에 대한 링크를 자동으로 찾는 가장 좋은 방법은 무엇입니까?

그래서, 내가 생각한 자신이 생각한 일이 여기있다. 내가 방대한 양의 콘텐츠를 가지고 있다고 잠시 생각해보십시오. 내 웹 사이트가 내 콘텐츠에 연결되어 있는지 확인하고 싶습니다. TrackBack이나 PingBack을 들여다 볼 수는 있지만 그 문제를 처리 할 수있는 도구를 사용하지 않는 것은 무엇입니까? 웹 크롤러의 일부 양식이 원본 문서에 링크 된 페이