4
미국 정부의 규제 웹 사이트 (www.regulations.gov)를 스크래핑하기 위해 Scrapy를 사용하려고합니다. 그것에는 많은 정보가 있지만, 끔찍한 웹 사이트입니다. javascript와 iframe으로 가득 차 있습니다. 몇 가지 간단한 Scrapy 거미를 실행하려고했지만 Javascript 및 iframe을 통해 모든 것이로드되기 때문에 아무 것도 구문 분석 할 수 없습니다.자바 스크립트 및 iFrame 및 대안으로 스킨 사용
<script type="text/javascript" src="Regs/Regs.nocache.js?REGS211-b3"></script>
<title>Regulations.gov</title>
<link rel="stylesheet" type="text/css" href="css/print.css" media="print" />
</head>
<body class="bodyLoading">
<!-- this is required for GWT history support -->
<iframe src="javascript:''" id="__gwt_historyFrame" tabIndex='-1' style="position:absolute;width:0;height:0;border:0"></iframe>
<!-- For printing window contents -->
<iframe id="__printingFrame" style="width:0;height:0;border:0;" ></iframe>
이 그리고, 그 각각의 페이지가 같은 문제가 :
는 예를 들어, main search page에,이 코드 블록은 실제로 결과 테이블을로드합니다. 예를 들어 this page은 위의 소스와 같습니다.
이 문제는 Scrapy로 처리 할 수 있습니까? 가능한 대안이 있습니까?