web-crawler

0열

1답변

웹 페이지의 내용을 읽는 URL (http://myURL.com)이 있습니다. 문제는 페이지 1 콘텐츠 만 읽을 수 있다는 것입니다. 페이지 2의 내용을 읽을 때 jsoup API를 사용하여 페이지 2의 페이지 매김 페이지의 URL을 표시하면서도 page2의 내용을 표시하는 대신 인쇄 할 때 page1의 내용을 표시하지만 page2의 URL을 브라우저에서

0열

2답변

Python - 웹 크롤링을 위해 팬더 및 열거 사용

그래서 최근에 파이썬에있는이 코드 세그먼트를 온라인으로 발견했으며 팬더에 열거 식을 사용합니다. import pandas as pd url = 'http://myurl.com/mypage/' for i, df in enumerate(pd.read_html(url)): df.to_csv('myfile_%s.csv' % i) 가 하나의 URL

0열

1답변

scrapy는

며칠 전 나는이 질문 : scrapy getting values from multiple sites 을 나는 WEBSITE2에 WEBSITE1에서 값을 전달하는 방법을 배웠다. 이것은 두 사이트의 수익률 정보를 허용합니다. 10 개의 다른 사이트와 같은 경우에는 해결되지 않습니다. 나는 함수에서 함수로 값을 전달할 수 있지만 바보 같다. 보다 효율적인 방법

1열

2답변

Python BeautifulSoup 웹 스크래핑

안녕하세요 저는 파이썬과 웹 스크래핑에 익숙하지 않습니다. 웹 사이트에서 URL을 가져 오는 스크립트입니다.하지만 웹 사이트를 검사 할 때 클래스 태그에서 URL을 가져올 수 없습니다. URL을 볼 수 있지만 내 스크립트에서, 자바 스크립트 This is the link 도움으로 사전에 감사하시기 바랍니다 보여줍니다 from bs4 import Beauti

2열

3답변

치료는 하나의 깊이만을 가진 외부 링크를 따릅니다

foo.com을 크롤링하고 있다고 상상해보십시오. 가야 scrapy 원하는 내가 scrapy을 부탁 foo.com/hello foo.com/contact bar.com holla.com 모든 내부 링크뿐만 아니라 외부 링크에 대해 하나의 깊이를 크롤링하는 등 : foo.com 자체에 여러 가지 내부 링크를 가지고 있으며,이 같은 일부 외부 링크가

0열

3답변

크롤링 중 반복되는 검색 결과

Google에서 검색 결과를 가져 와서 파일에 저장하려고합니다. 그러나 그 결과는 반복되고 있습니다. 또한 파일에 저장하면 마지막 하나의 링크 만 파일로 인쇄됩니다. require 'rubygems' require 'mechanize' agent = Mechanize.new page = agent.get('http://www.google.com/vi

2열

1답변

Nutch에서 조건을 기반으로 가져온 후 URL을 거부합니다.

조건 (예 : 게시 된 날짜 또는 시간)에 따라 가져온 URL을 필터링 할 수 있는지 알고 싶습니다. 나는 우리가 가져올 URL을 regex-urlfilter으로 필터링 할 수 있다는 것을 알고있다. 필자의 경우 이전 문서를 색인 싶지 않습니다. 따라서 2017 년 이전에 문서가 게시되면 거부해야합니다. 날짜 필터 플러그인이 필요하거나 이미 사용할 수 있습

-1열

1답변

iPython 노트북의 전체 출력을 어떻게 .txt 파일로 저장할 수 있습니까?

ipython 노트북의 트위터에서 데이터를 크롤링하는 프로그램을 작성했습니다. 이 프로그램은 엄청난 양의 데이터 스트림을 출력하고이 출력을 .txt 파일로 저장하려고합니다. 어떻게해야합니까? 터미널을 열면 다음과 같이 쉽게 할 수 있습니다 : python myfile.py> file.txt ipython 노트북에서 어떻게 똑같은 작업을 수행합니까?

0열

1답변

숫자로 제한하지 않고 범위를 지정하는 방법

식당의 리뷰를 얻는 코드입니다. 나는 리뷰를 수집하고있다. 범위를 지정하고 가져옵니다. 그러나 문제가 있습니다. 각 상점에는 다른 수의 리뷰가 있습니다. 작은 리뷰가있는 상점은 곧 다음 상점에 가야합니다. 너무 큰 범위에서 고통 받고 있습니다. 그러나 범위를 줄일 수는 없습니다. 일부 상점의 리뷰가이 범위에 있기 때문입니다. 효과적으로 어떻게 작업 할 수

0열

1답변

검색 엔진을위한 데이터베이스 디자인?

나는 웹 사이트를 크롤링하는 앱을 만들었습니다. here - http://crawler.javaignite.com/ 나는 모든 상대 URL을 가지며 제목을 포함한 메타 키워드와 설명이 있습니다. 하지만이 테이블의 데이터를 저장하고 싶습니다. & 검색 엔진 저장 데이터 및 검색 방법에 대한 기본 아이디어가 없기 때문에 기본 스키마를 만들 수 있습니다.