web-crawler

0열

1답변

Java 기반 Nutch 웹 검색 소프트웨어를 사용하고 있습니다. 내 검색어 결과에서 중복 (URL) 결과가 반환되지 않도록하려면 Nutch 크롤러를 실행하여 색인을 생성 할 때 색인이 생성되는 url에서 'jsessionid'표현식을 제거 (a.k.a. normalize)하려고합니다. 그러나 (내 크롤링을 실행하기 전에) $ NUTCH_HOME/conf/

0열

1답변

크롤링이 작동하지 않습니다 windows2008

우리는 Windows 2008 SP2 환경에 새로운 MOSS 2007 팜을 설치했습니다. SQL2008도 사용했습니다. 구성은 2008 년의 1 인덱스, 1 FE 및 1 서버이며 모두 ESX 4.0입니다. 이 서비스를 필요로하는 모든 서비스는 전용 사용자를 사용하므로 검색에는 전용 사용자가 있습니다. 설치가 잘되었고 문제가 없습니다. ISO에서 SP1 MO

3열

2답변

Python에서 다중 프로세스 스파이더 설계하기

저는 파이썬에서 다중 프로세스 스파이더를 연구 중입니다. 그것은 링크를 위해 한 페이지 긁어 내기 시작해야하고 거기에서 일해야합니다. 특히 최상위 페이지에는 범주 목록, 해당 범주의 두 번째 수준 페이지 이벤트 및 이벤트의 마지막, 세 번째 수준 페이지 참가자가 포함됩니다. 얼마나 많은 카테고리, 이벤트 또는 참가자가 있을지 예측할 수 없습니다. 거미를 디

22열

6답변

웹 크롤러가 자바 스크립트를 처리하는 방법

오늘 인터넷에서 많은 콘텐츠가 자바 스크립트 (특히 백그라운드 AJAX 호출)를 사용하여 생성됩니다. Google과 같은 웹 크롤러가 어떻게 처리하는지 궁금합니다. 그들은 자바 스크립트를 알고 있습니까? 자바 스크립트 엔진이 내장되어 있습니까? 또는 그들은 페이지에서 모든 JavaScript 생성 된 내용을 무시합니다 (나는 거의 없을 것 같음). 사람들은

2열

3답변

루비 웹 스파이더 및 검색 엔진 라이브러리

루비 라이브러리 또는 보석 (또는 보석 세트)은 스파이더 링을 수행 할뿐만 아니라 데이터베이스에 데이터를 수집하고에 대한 기본 검색을 허용합니다. 데이터 (즉, 일반적인 웹 검색). 나는 몇 개의 스파이더 라이브러리를 발견 했으므로 그 부분이 잘 보였다 (처음에는 Anemone을 시도 할 예정 이었음). 그러나 spidered 데이터를 가져 와서 쿼리 할

0열

3답변

Perl의 HTML 페이지를 가리키는 JavaScript의 링크를 어떻게 추출합니까?

페이지에서 모든 링크를 추출하고 싶습니다. HTML:LinkExtor을 사용하고 있습니다. HTML 콘텐츠 페이지 만 가리키는 모든 링크를 어떻게 추출합니까? 또한 링크의 이러한 종류를 추출 할 수 없습니다 : javascript:openpopup('http://www.admissions.college.harvard.edu/financial_aid/inde

2열

3답변

Scrapy 거미 인덱스 오류

이것은 내가 Scrapy 프레임 워크 내에서 작성하는 노력했습니다 Spyder1에 대한 코드 : >>> hxs.select( ... '//td[@class="altRow"][1]/a/@href').re('/.a\w+') [u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairi

5열

1답변

Scrapy BaseSpider : 어떻게 작동합니까?

이것은 Scrapy 튜토리얼에서 BaseSpider의 예는 다음과 같습니다 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): dom

9열

4답변

치료 SgmlLinkExtractor 질문

SgmlLinkExtractor를 작동 시키려고합니다. 나는 rules = (Rule(SgmlLinkExtractor(allow=("/aadler/",)), callback='parse'),) 그래서, 초기 URL이 'http://www.whitecase.com/jacevedo/' 내가이 allow=('/aadler',)를 입력하고 기대하고 입력 Sgm

0열

1답변

간단한 거미 질문

나는 지금까지 행운이없는 Scrapy를 사용하여이 간단한 작업을 달성하려고 애쓰는 초보자입니다. Scrapy 또는 다른 도구 (Python 사용)로이 작업을 수행하는 방법에 대한 조언을 구합니다. 고맙습니다. INITIAL_URL = www.example.com/Attorneys/List.aspx?LastName=A : 나는 성 A를 시작 변호사의 약력을