web-crawler

0열

1답변

(이전에) 작동중인 웹 사이트 크롤러를 업데이트하는 중입니다. 내가 크롤링 한 웹 사이트가 더 엄격한 금지 규칙을 도입 한 것으로 보입니다. 그래서이 문제를 회피하기위한 시도로 Crawlera를 사용하기 시작했습니다. 현재 제가 겪고있는 문제는 대상 웹 사이트가 표준 HTML 페이지에 302를 수행하는 비표준 금지 접근법을 사용하고 있다는 것입니다. Cra

1열

1답변

scrapy spider : 연대순으로 출력

나는 Scream으로 파이썬에서 웹 크롤러를 프로그래밍하고있다. 목적은 사전 결정된 시간 간격으로 웹 페이지의 변경 사항을 모니터링하는 것입니다. 웹 사이트에 로그인하면 스파이더가 X 분마다 웹 페이지를 요청하고 특정 데이터가 페이지에서 추출되어 텍스트 파일에 저장됩니다. 텍스트 파일은 거미가 닫히고 텍스트 파일의 줄이 연대순으로 정렬되지 않은 경우에만 쓰

0열

1답변

어떻게 최신 버전 (1.4)에 scrapy를 업그레이드하려고

scrapy를 업그레이드 할 수 있지만이 오류 얻을 : # sudo pip install --upgrade scrapy Downloading/unpacking scrapy from https://pypi.python.org/packages/a8/96/3affe11cf53a5d2105536919113d5b453479038bb486f7387f4ce4a3b83

0열

2답변

JSOUP를 사용하는 웹 크롤러가 사용자 정의 태그를 가져올 수 없습니다.

JSOUP을 사용하여 웹 크롤러를 작성하려고합니다. 문제는 다른 페이지에서 작동하지만 Swiggy 데이터를 크롤링 할 수 없다는 것입니다. 나는 이것이 사용자 정의 태그 restaurant-menu의 존재 때문이라고 생각합니다. 나는이 수행 Document document = Jsoup.connect(url).get(); Elements document_

-1열

1답변

웹 크롤러가 동적 생성 URL을 가져올 수 없습니다.

웹에서 일부 사진을 크롤링하기위한 토이 프로그램을 작성하고 있습니다.하지만 URL은 js로 생성됩니다. 사람이 어떻게 처리하는 말해 줄 수 .. 구문 분석 된 URL : 원래의 웹 페이지 : 어쨌든 http://jandan.net/ooxx/page-323#comments , URI SRC 이미지가 인코딩 및 암호화

0열

2답변

Apache Nutch 2.3을 사용자 정의하는 방법

Nutch는 내 자신의 규칙에 따라 특정 URL을 선택하고 싶습니다. 이 단계는 생성시 완료됩니다. 나는 파서/인덱서 플러그인을 작성하는 방법을 안다. 그러나 생성 시간에 그것을하는 방법. 내 Nutch 버전은 2.3 계열입니다.

0열

1답변

URL을 피하는 방법 Crul이 php를 사용할 때 리다이렉션?

API를 사용하지 않고 회사의 LinkedIn 프로필을 크롤링하고 싶습니다. 다음 코드를 사용할 때 크롤링하는 동안 페이지 리디렉션이 발생합니다. http://localnew/comapny은 http://linkedin/company으로 리디렉션됩니다. 그것을 방지하는 방법. <?php error_reporting(E_ALL); ini_set("disp

0열

1답변

Scrapy : 크롤링 확인 및 중지 방법

각 페이지에 구문 분석이 필요한 URL 목록이있는 페이지 목록을 크롤링하고 있습니다. 이 첫 번째 페이지를 반복하고 있지만 크롤링을 중단해야하는시기를 미리 알지 못합니다. 예를 들어이 하나 여전히 구문 분석하는 것입니다 http://www.cmjornal.pt/opiniao/colunistas/acacio-pereira/MoreContent?firstCon

0열

1답변

예약 된 시간에 거미를 크롤링

예정된 시간에 거미를 여러 번 크롤링하고 싶습니다. 다음 크롤링 시간은 첫 번째 크롤링이 완료된 후에 결정됩니다. 당신은 외부 모듈 일정 시도를 줄 수 spidersQ = collections.OrderedDict() class QuotesSpider(scrapy.Spider): name = "quotes" global spidersQ

0열

1답변

Python과 Webhose.io를 사용하여 웹 데이터를 아들 형식으로 크롤링

저는 Python을 처음 사용합니다. 내가하려는 것은 Webhose.io API를 사용하여 웹 데이터를 Json 형식으로 크롤링하는 것입니다. 각 쿼리는 5 개의 게시물/기사를 제공합니다. 데이터 세트에 1000 개의 기사를 가져 오려고합니다. Webhose는 무료로 등록 할 수 있으며 무료로 한 달에 1000 건의 요청을 제공하므로 데이터 세트를받는 데