web-crawler

0열

1답변

내 목표 나 웹이 점점 www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsen

3열

2답변

웹 페이지에서 카테고리 제목을 다룰 수 없습니다.

파이썬에서 웹 페이지에서 다른 카테고리 이름을 얻기 위해 스크래퍼를 작성했지만 해당 페이지에서 아무것도 가져올 수 없습니다. 나는 내가 잘못 가고있는 곳을 알아낼 수 없도록 진지하게 혼란 스럽다. 어떤 도움이라도 대단히 감사 할 것입니다. URL 다음 내가 지금까지 시도한 것입니다 : 여기 는 웹 페이지에 대한 링크입니다 from bs4 import Bea

0열

1답변

웹 크롤러. 오류 LAttributeError : 'NoneType'객체에 'tr'속성이 없습니다.

내 코드는 다음 행에 오류를 제공합니다. tr_ tag = soup.table.tr. 오류 메시지 : 형식이 아닌 개체에 'tr'특성이 없습니다. imbd에 웹 크롤러를 작성하여 Python 2.7을 사용하여 데이터를 가져옵니다. 해결하도록 도와 줄 수 있습니까? def get_movie_data(self, soup, min_rating): **tr_ta

0열

1답변

Hadoop MapReduce 기반 웹 Java 크롤러

MapReduce 아키텍처를 사용하여 Hadoop Framework 기반의 Java 크롤러를 구현하고 HBase에 컨텐츠를 삽입하려고합니다. 나는이 2 자습서를 결합하려고 : Basic web crawler example MapReduce tutorial 그러나 내가 개념을 이해할 수 없습니다. 페이지에서 링크를 추출하는 논리는 어디에 두어야합니까? Map

0열

1답변

Nutchx2의 라운드 수를 사용하는 방법

동일한 문제가 있습니다. 내가 Nutch의 2.3.1 버전 SOLR의 5.2.1 버전을 사용하고 있습니다 그런데 crawl urls/ucuzcumSeed.txt ucuzcum http://localhost:8983/solr/ucuzcum/ 10 crawl <seedDir> <crawlID> [<solrUrl>] <numberOfRounds> : 나는

0열

1답변

의사 배포 모드로 설치된 Hadoop에서 Nutch 실행 방법

Nutch 1.13을 내 Ubuntu에 설치했습니다. 독립 실행 형 모드에서 크롤링을 실행할 수 있습니다. 그것은 성공적으로 실행하고 원하는 결과를 생산하지만 난 hadoop에서 지금 그것을 실행하는 방법을 몰라? Hadoop을 가상 배포 모드로 설치했고 Hadoop을 사용하여 Nutch 크롤링을 실행하고 모니터링하려고합니다. 내가 어떻게 해? 독립 실행

0열

1답변

웹 페이지의 HTML 코드 받기

URL을 사용하여 웹 페이지의 HTML 코드를 가져 오려고합니다. 다음 코드를 작성했지만 작동하지만 결과 문자열을 비교하면 google chrome의 검사를 사용할 때 보이는 코드와 일치하지 않습니다. 나는 HTML 크럽은 아니지만 다른 것 같다. 다음과 같이 HttpWebRequest request = (HttpWebRequest)WebRequest.Cr

0열

2답변

Python Selenium에서 아래로 스크롤하는 방법

안녕하세요, 저는 Selenium과 Python을 처음 접했습니다. 방금 사이트를 긁어 모으고있었습니다 pagalguy website. 페이지의 맨 아래로 스크롤하는 방법을 알고 있지만 셀레늄이 모든 readmore 버튼을 클릭하도록 단계적으로 아래로 스크롤하는 것이 필요하지만 그렇게 단계별로 스크롤하는 방법을 알지 못합니다. 열심히 일 browser.ex

1열

1답변

content-length를 필드 값으로 저장하십시오 (색인 된 문서의 메타 데이터라고도 함)

크롤러 페이지의 콘텐츠 길이를 메타 데이터로 문서에 저장하려고합니다. http.store.headers = true을 설정할 수는 있지만 서버의 http 헤더를 신뢰할 수는 없습니다. 그래서 우리는 ProtocolResponse #의 getContent(). (이하 "bytes_fetched"메트릭에 더하여) 메타 데이터 값과 길이 쓰기 FetchedBol

1열

1답변

웹 크롤러가 다른 출력으로 동일한 코드를 출력합니다.

자습서를 둘러 보려고했는데 웹 크롤러가 막혔습니다. 나는 그것을 끝냈다 고 생각했지만 결과는 일관성이 없었고 이유를 파악하기에 충분한 동시성 경험이 없습니다. 여기 package main import ( "fmt" "sync" ) type Fetcher interface { // Fetch returns the body o