web-crawler

    0

    1답변

    Java 기반 Nutch 웹 검색 소프트웨어를 사용하고 있습니다. 내 검색어 결과에서 중복 (URL) 결과가 반환되지 않도록하려면 Nutch 크롤러를 실행하여 색인을 생성 할 때 색인이 생성되는 url에서 'jsessionid'표현식을 제거 (a.k.a. normalize)하려고합니다. 그러나 (내 크롤링을 실행하기 전에) $ NUTCH_HOME/conf/

    0

    1답변

    우리는 Windows 2008 SP2 환경에 새로운 MOSS 2007 팜을 설치했습니다. SQL2008도 사용했습니다. 구성은 2008 년의 1 인덱스, 1 FE 및 1 서버이며 모두 ESX 4.0입니다. 이 서비스를 필요로하는 모든 서비스는 전용 사용자를 사용하므로 검색에는 전용 사용자가 있습니다. 설치가 잘되었고 문제가 없습니다. ISO에서 SP1 MO

    3

    2답변

    저는 파이썬에서 다중 프로세스 스파이더를 연구 중입니다. 그것은 링크를 위해 한 페이지 긁어 내기 시작해야하고 거기에서 일해야합니다. 특히 최상위 페이지에는 범주 목록, 해당 범주의 두 번째 수준 페이지 이벤트 및 이벤트의 마지막, 세 번째 수준 페이지 참가자가 포함됩니다. 얼마나 많은 카테고리, 이벤트 또는 참가자가 있을지 예측할 수 없습니다. 거미를 디

    22

    6답변

    오늘 인터넷에서 많은 콘텐츠가 자바 스크립트 (특히 백그라운드 AJAX 호출)를 사용하여 생성됩니다. Google과 같은 웹 크롤러가 어떻게 처리하는지 궁금합니다. 그들은 자바 스크립트를 알고 있습니까? 자바 스크립트 엔진이 내장되어 있습니까? 또는 그들은 페이지에서 모든 JavaScript 생성 된 내용을 무시합니다 (나는 거의 없을 것 같음). 사람들은

    2

    3답변

    루비 라이브러리 또는 보석 (또는 보석 세트)은 스파이더 링을 수행 할뿐만 아니라 데이터베이스에 데이터를 수집하고에 대한 기본 검색을 허용합니다. 데이터 (즉, 일반적인 웹 검색). 나는 몇 개의 스파이더 라이브러리를 발견 했으므로 그 부분이 잘 보였다 (처음에는 Anemone을 시도 할 예정 이었음). 그러나 spidered 데이터를 가져 와서 쿼리 할

    0

    3답변

    페이지에서 모든 링크를 추출하고 싶습니다. HTML:LinkExtor을 사용하고 있습니다. HTML 콘텐츠 페이지 만 가리키는 모든 링크를 어떻게 추출합니까? 또한 링크의 이러한 종류를 추출 할 수 없습니다 : javascript:openpopup('http://www.admissions.college.harvard.edu/financial_aid/inde

    2

    3답변

    이것은 내가 Scrapy 프레임 워크 내에서 작성하는 노력했습니다 Spyder1에 대한 코드 : >>> hxs.select( ... '//td[@class="altRow"][1]/a/@href').re('/.a\w+') [u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairi

    5

    1답변

    이것은 Scrapy 튜토리얼에서 BaseSpider의 예는 다음과 같습니다 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): dom

    9

    4답변

    SgmlLinkExtractor를 작동 시키려고합니다. 나는 rules = (Rule(SgmlLinkExtractor(allow=("/aadler/",)), callback='parse'),) 그래서, 초기 URL이 'http://www.whitecase.com/jacevedo/' 내가이 allow=('/aadler',)를 입력하고 기대하고 입력 Sgm

    0

    1답변

    나는 지금까지 행운이없는 Scrapy를 사용하여이 간단한 작업을 달성하려고 애쓰는 초보자입니다. Scrapy 또는 다른 도구 (Python 사용)로이 작업을 수행하는 방법에 대한 조언을 구합니다. 고맙습니다. INITIAL_URL = www.example.com/Attorneys/List.aspx?LastName=A : 나는 성 A를 시작 변호사의 약력을