web-crawler

    0

    1답변

    웹 페이지의 내용을 읽는 URL (http://myURL.com)이 있습니다. 문제는 페이지 1 콘텐츠 만 읽을 수 있다는 것입니다. 페이지 2의 내용을 읽을 때 jsoup API를 사용하여 페이지 2의 페이지 매김 페이지의 URL을 표시하면서도 page2의 내용을 표시하는 대신 인쇄 할 때 page1의 내용을 표시하지만 page2의 URL을 브라우저에서

    0

    2답변

    그래서 최근에 파이썬에있는이 코드 세그먼트를 온라인으로 발견했으며 팬더에 열거 식을 사용합니다. import pandas as pd url = 'http://myurl.com/mypage/' for i, df in enumerate(pd.read_html(url)): df.to_csv('myfile_%s.csv' % i) 가 하나의 URL

    0

    1답변

    며칠 전 나는이 질문 : scrapy getting values from multiple sites 을 나는 WEBSITE2에 WEBSITE1에서 값을 전달하는 방법을 배웠다. 이것은 두 사이트의 수익률 정보를 허용합니다. 10 개의 다른 사이트와 같은 경우에는 해결되지 않습니다. 나는 함수에서 함수로 값을 전달할 수 있지만 바보 같다. 보다 효율적인 방법

    1

    2답변

    안녕하세요 저는 파이썬과 웹 스크래핑에 익숙하지 않습니다. 웹 사이트에서 URL을 가져 오는 스크립트입니다.하지만 웹 사이트를 검사 할 때 클래스 태그에서 URL을 가져올 수 없습니다. URL을 볼 수 있지만 내 스크립트에서, 자바 스크립트 This is the link 도움으로 사전에 감사하시기 바랍니다 보여줍니다 from bs4 import Beauti

    2

    3답변

    foo.com을 크롤링하고 있다고 상상해보십시오. 가야 scrapy 원하는 내가 scrapy을 부탁 foo.com/hello foo.com/contact bar.com holla.com 모든 내부 링크뿐만 아니라 외부 링크에 대해 하나의 깊이를 크롤링하는 등 : foo.com 자체에 여러 가지 내부 링크를 가지고 있으며,이 같은 일부 외부 링크가

    0

    3답변

    Google에서 검색 결과를 가져 와서 파일에 저장하려고합니다. 그러나 그 결과는 반복되고 있습니다. 또한 파일에 저장하면 마지막 하나의 링크 만 파일로 인쇄됩니다. require 'rubygems' require 'mechanize' agent = Mechanize.new page = agent.get('http://www.google.com/vi

    2

    1답변

    조건 (예 : 게시 된 날짜 또는 시간)에 따라 가져온 URL을 필터링 할 수 있는지 알고 싶습니다. 나는 우리가 가져올 URL을 regex-urlfilter으로 필터링 할 수 있다는 것을 알고있다. 필자의 경우 이전 문서를 색인 싶지 않습니다. 따라서 2017 년 이전에 문서가 게시되면 거부해야합니다. 날짜 필터 플러그인이 필요하거나 이미 사용할 수 있습

    -1

    1답변

    ipython 노트북의 트위터에서 데이터를 크롤링하는 프로그램을 작성했습니다. 이 프로그램은 엄청난 양의 데이터 스트림을 출력하고이 출력을 .txt 파일로 저장하려고합니다. 어떻게해야합니까? 터미널을 열면 다음과 같이 쉽게 할 수 있습니다 : python myfile.py> file.txt ipython 노트북에서 어떻게 똑같은 작업을 수행합니까?

    0

    1답변

    식당의 리뷰를 얻는 코드입니다. 나는 리뷰를 수집하고있다. 범위를 지정하고 가져옵니다. 그러나 문제가 있습니다. 각 상점에는 다른 수의 리뷰가 있습니다. 작은 리뷰가있는 상점은 곧 다음 상점에 가야합니다. 너무 큰 범위에서 고통 받고 있습니다. 그러나 범위를 줄일 수는 없습니다. 일부 상점의 리뷰가이 범위에 있기 때문입니다. 효과적으로 어떻게 작업 할 수

    0

    1답변

    나는 웹 사이트를 크롤링하는 앱을 만들었습니다. here - http://crawler.javaignite.com/ 나는 모든 상대 URL을 가지며 제목을 포함한 메타 키워드와 설명이 있습니다. 하지만이 테이블의 데이터를 저장하고 싶습니다. & 검색 엔진 저장 데이터 및 검색 방법에 대한 기본 아이디어가 없기 때문에 기본 스키마를 만들 수 있습니다.