scrapy

3열

1답변

파이썬 스콥 : allowed_domains 데이터베이스에서 새 도메인 추가

allowed_domains에 도메인을 추가해야하므로 "필터링 된 오프 사이트 요청"을받을 수 없습니다. 내 앱이 데이터베이스에서 가져올 URL을 가져 오므로 수동으로 추가 할 수 없습니다. 나는이 해결하기 위해 나의 첫 번째 문제이고, 거미 초기화에게 괜찮다고이 def __init__(self): super(CrawlSpider, self)._

2열

1답변

Python 사이트 크롤러, Scrapy로 파일 저장

특정 검색 항목을 가져 와서 결과에 관련된 .CSV 파일 전체를 저장하는 크롤러를 작성하려고합니다. 나는 이미 필요한 모든 HTML 데이터를 구문 분석하는 스파이더를 가지고 있으며, 지금 내가해야 할 일은 필요한 파일을 어떻게 저장할 수 있는지를 파악하는 것입니다. 그래서 검색은 다음 웹 브라우저에 상관 .csv 파일을 저장하라는 메시지를 표시이 https

0열

3답변

POST 요청 (인코딩 됨)을 통해 로그인을 시뮬레이션하는 데 스쿠버를 사용하는 방법

www.eoddata.com과 같은 사이트에서 로그인을 시뮬레이션 할 수 있습니까? 웹 사이트는 게시물 요청을 사용하여 로그인 정보를 제출합니다. 수도

4열

1답변

자바 스크립트 및 iFrame 및 대안으로 스킨 사용

미국 정부의 규제 웹 사이트 (www.regulations.gov)를 스크래핑하기 위해 Scrapy를 사용하려고합니다. 그것에는 많은 정보가 있지만, 끔찍한 웹 사이트입니다. javascript와 iframe으로 가득 차 있습니다. 몇 가지 간단한 Scrapy 거미를 실행하려고했지만 Javascript 및 iframe을 통해 모든 것이로드되기 때문에 아무

1열

1답변

ImportError : Scthon for python이 더 이상 작동하지 않습니다. scrapy.cmdline이라는 모듈이 없습니다.

이 문제는 몇 시간 전에 게시 한 문제 (Python이 작동하지 않는 문제)와 유사합니다. 환경 변수의 PYTHONPATH에 올바른 디렉토리를 추가하기 만하면 문제를 해결할 수있었습니다. Scrapy을 실행하면 나에게 오류 산출 : 나는 보았다 ImportError: No module named scrapy.cmdline 을 내가 올바른 위치에 해당 모

8열

2답변

다음 링크, Scrapy 웹 크롤러 프레임 워크

Scrapy 문서를 여러 번 읽은 후에도 CrawlSpider 규칙을 사용하고 콜백 메소드에 자체 링크 추출 메커니즘을 구현하는 것과는 차이가 있습니다. 나는 후자의 접근 방식을 사용하여 새로운 웹 크롤러를 작성하려고하지만 규칙을 사용하여 과거 프로젝트에서 좋지 않은 경험을했기 때문에. 나는 내가하고있는 일과 그 이유를 정확히 알고 싶다. 이 도구에 익숙한

1열

1답변

국제 텍스트의 치료 문제

나는 치료법을 사용하여 웹 페이지에서 텍스트를 긁어 냈습니다. 거미, 나는 코드처럼이 : 여기 title = hxs.select("//h1/text()").extract() #1 final_text = title[0].encode('utf-8') #2 문제 라인 # 1 [u'Puerto 금지 \의 xfas '] 라인 # 2 푸에르토 반을 제공을 제공입

-2열

1답변

Python/Scrapy 질문 : 더 깨끗한 결과를 얻으려면 어떻게해야합니까?

프로젝트에 대한 나의 임무는 특정 이름에 대해 웹 사이트를 데이터 마이닝하는 것입니다. 파이썬에 대한 나의 경험은 높지 않다. [u'Bob 조 '] [u'Tim 톰'] [u'Anne 프랭크 '] [u'superman': 나는 모든 이름을 긁어 때, 그들은이 형식으로 나올 ] 어떻게 이러한 값을 정리할 수 있습니까? 'u'는 무엇을 의미합니까? 내 xpath

4열

3답변

URL에있는 치료, 해시 태그

나는 Scrapy를 사용하여 폐품 처리 중이 야. 나는 Scrapy가 해시 태그의 URL을 끝까지 제거한다는 것을 알았습니다. 여기 쉘의 출력입니다 : 때문에 일부 항목이 선택되지 않는 이유를 알아 내려고 몇 시간 후 [s] request <GET http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_11232

2열

1답변

파이썬에서 편집하기 위해 바이너리 모드에서 xml 파일을 여는 이유는 무엇입니까? Pydocs에 따르면

, 쓰기 및 바이너리 모드로 파일을 열 fp = file('blah.xml', 'w+b') 또는 fp = file('blah.xml', 'wb') 의미합니다. 그러나 이것은, xml 파일, 그래서이 두 챕스 할 이유 http://www.pixelmender.com/2010/10/12/scraping-data-using-scrapy-framework/