저는 현재 그물을 연구 중이며 앱 스토어 용 자바 웹 크롤러를 만드는 방법을 찾으려고합니다. Jsoup 라이브러리를 사용해 보았지만 무한 스크롤 웹 페이지 크롤링을 지원하지 않습니다. 자바를 사용하여 무한 루프 웹 페이지를 크롤링하는 적절한 방법을 알고 있다면 언제든지 알려주십시오. 자바 설치 PhantomJS에 업데이트 어떻게? 고마워요.
웹 크롤러를 만들고 pycharm에서 프로그램을 실행하여 URL의 앵커 태그를 검색하려고합니다. 그러나 내가 얻은 결과는 입력 한 바로 그 URL과 같습니다. . 코드는 다음과 같습니다 : 여기에서 주목해야 할 import urllib.request,urllib.parse,urllib.error
from bs4 import BeautifulSoup
관련이 있는지 없는지는 잘 모르겠지만 인라인 요청 라이브러리를 사용합니다. 사이트 API에 요청을 보내고 잘못된 요청 (400)을 반환하면 크롤러가 중지됩니다. 어떻게하면 계속 할 수 있을까요? 아래 예에서 ISBN은 '0046594062994'이며 책을 판매하지 않았기 때문에이 책이 없으므로 잘못된 요청을 반환합니다 (아래 URL을 입력 해보십시오) .
자바 스크립트를 사용하여 로그인하는 데 필요한 모든 정보를 얻을 수 있습니까? var form = getForm(); //some special function :-)
console.log(form.action); // "https://example.com/login"
console.log(form.method); // post
//next step
Iam이 소셜 네트워크 웹 사이트를 구축 중입니다. Instagram API를 사용하여 Instagram의 해시 태그로 ALL 개의 이미지를 크롤링하고 싶습니다. (내 서버에 저장 이미지가없는 Instagram 이미지에 대한 URL 링크 만 저장) is is possible? 또는 Instagram API는 최근 이미지의 제한된 수만 응답합니까? 감사합니다
때때로 API를 긁어 모으기 요청을 보내면 제대로로드되지 않고 가격 대신 -1을 반환합니다. 그래서 while 루프를 사용하여 -1을 얻는 한 요청을 반복하지만 반복 요청으로 인해 첫 번째 요청 후에 스파이더가 멈 춥니 다. 제 질문은 어떻게 중복 요청을 처리하도록 변경할 수 있습니까? 예제 코드 : 마음에 is_checked = False
wh
이 웹 사이트의 기사를 웹 크롤링 할 예정입니다. 이 내가 지금까지 무엇을했는지 있습니다 : # HR Version
# the entire crawling process
openfile = open("data/HR.csv", "rb")
r = csv.reader(openfile)
HR_data = []
for i in r:
url =
Eclipse에 solr 5.5.0 및 hbase 0.90.6으로 apache nutch 1.13을 구성했습니다. 이제 인젝터에서 인버트 링크로 작업을 실행할 수 있지만 인덱싱 작업을 실행하는 동안 "Missing elastic.cluster and elastic.host ...."오류가 발생합니다. nutch-site.xml 파일의 plugin.inclu
나는 치료를 위해 일반 스크레이퍼를 구성하려고 시도했다. 아이디어는 URL을 입력으로 받아 해당 URL의 페이지 만 긁어 내야하지만, YouTube 등에서 사이트를 벗어나는 것처럼 보입니다. 이상적으로는 1,2를 허용하는 깊이 옵션도 있습니다. , 3, 등등. 이것을 달성하는 방법에 대한 아이디어가 있습니까? from bs4 import BeautifulS