web-crawler

6열

6답변

파이썬에서 사이트를 크롤링하기 위해 스파이더를 작성하고 있습니다. 문제는 약 250 만 페이지를 검토해야하므로 속도 최적화에 도움이되도록 도움을 얻을 수 있습니다. 내가해야할 일은 특정 번호의 페이지를 검사하고 페이지에 대한 링크를 기록하는 것이 발견 된 경우입니다. 거미는 아주 간단하다, 다만 많은 페이지를 통해서 분류 할 필요가있다. 전 완전히 파이썬에

2열

4답변

나는 대학을위한 데이터 시각화 프로젝트를 위해 blogger.com에서 데이터를 수집하기 위해 거미를 만들고 있기 때문에 이것을 묻습니다. 스파이더는 블로거의 browse function에서 약 17,000 개의 값을 찾고 올바른 기준에 맞는 특정 메일을 저장합니다 (익명으로). 나는 거미 (PHP로 작성)를 실행 해 왔지만 정상적으로 작동하지만 내 IP를

0열

3답변

자바 스크립트 크롤링 및 구문 분석

자바 스크립트을 사용하여 해당 항목/회사의 전화 번호를 onclick으로 표시하는 웹 사이트에서 정보를 가져 오려고합니다. PHP 컬 또는 xpath로 크롤링하면이 이벤트를 트리거하는 방법과 크롤링을 계속 유지하는 방법을 찾을 수 없습니다. 예 : 여기에 정보가 너무 function show(info_id,qpath,swimage){ expandit(in

10열

1답변

치료 SgmlLinkExtractor가 허용 된 링크를 무시합니다

Scrapy 설명서에서 this spider example을 살펴보십시오. 설명은 다음과 같습니다. 이 스파이더는 카테고리 링크 및 항목 링크를 수집하고 example.com의 홈페이지를 크롤링하고 parse_item 메소드를 사용하여 구문 분석을 시작합니다. 각 항목 응답에 대해 XPath를 사용하여 HTML에서 일부 데이터가 추출되고 항목이 채워집니다.

2열

2답변

자동화 된 거미 테스트

나는 현재의 연속 통합 설정에 자동화 된 통합 테스팅의 매우 간단한 계층을 추가하려고합니다. (CI는 현재 빌드 중단 만 검사합니다). 제품이 있는가하는 것입니다 : 기본 URL에서 , 스파이더 사이트 다시 & 보고 어떤 500분의 404 개 오류 코드? 로그온 단계를 추가 할 수있게하려면 페이지를 거미 수 있습니까? 내가 SilkTest & Seleniu

1열

3답변

보내는 부하 분산

나는 파이썬에 큰 나사 피드 검색 스크립트가 있습니다. 제 질문은 나가는 요청을 너무 자주로드하지 않도록로드 균형을 조정할 수 있습니까? 피드 버너의 경우 사이트의 많은 부분이 피드 버너를 통해 RSS를 프록시 처리하고 많은 사이트가 피드 버너에게 도메인의 하위 도메인을 별칭으로 사용하여 사실을 모호하게하기 때문에 큰 문제가됩니다 (예 : "mysite"는

0열

2답변

어디에 robots.txt 파일을 넣으시겠습니까?

나는 도메인 www.mydomain.com을 가지고 있으며, www.mydomain.com/myappl을 갖기 위해 아파치 모 드 재 작성을 설정했다. 어디에서 robots.txt 파일을 배치해야합니까? 감사!

0열

3답변

Java에서 웹 인덱서 만들기?

Java에서 웹 크롤러를 작성해야합니다. 크롤링 부분은 쉽지만 인덱싱 부분은 어렵습니다. 인덱서를 쿼리하고 일치 (여러 단어 쿼리)를 반환 할 수 있어야합니다. 그런 일을하는 데 가장 적합한 데이터 구조는 무엇일까요?

9열

3답변

웹 스크 레이 핑을위한 회전 프록시

파이썬 웹 크롤러가 있는데 많은 다른 프록시 서버에 다운로드 요청을 배포하고 싶습니다. 아마도 오징어를 실행하고있을 것입니다. 예를 들어, 라운드 로빈 방식으로 작동 할 수 있습니다. 여기서 request1은 proxy1로, request2는 proxy2로 이동하고, 결국에는 돌아 다니며 돌아갑니다. 이걸 어떻게 세우는 거지? 난이도를 높이기 위해 사용 가

0열

3답변

은 검색 엔진의 데이터베이스에 대한 액세스가 필요합니다.

분명히, 저에게는 google이나 yahoos와 같이 인터넷을 자율적으로 크롤링하는 거미를 실행하는 것이 과잉이라고 생각합니다. 그래서 나는 그들을 긁는 대신에 주요 검색 엔진의 데이터베이스에 액세스 할 수있는 방법이 있다면 궁금합니다.