2012-08-22 7 views
2

크롤러가 제공하는 동적 콘텐츠가있는 페이지가 있습니다. 그러나 때로는이 콘텐트는 HTML (닫기 태그없이, 열린 태그없이 닫힌 태그 등)에 문제가 있습니다. 따라서,이 잘못된 내용은 전체 페이지를 깨뜨리므로 안되는 것을 닫거나 열 수 있습니다.샌드 박스에서 iframe없이 HTML로?

일반적인 실수입니다.

<div><p>foo</p>

<p>bar</p></div>

<p><a>link</p></a>

페이지를 중단하지 않는하기 위해 샌드 박스에서이 내용을 넣어 어떻게? SEO 때문에 iframe을 사용할 수 없습니다.

+1

JavaScript가 옵션입니까? – pimvdb

+0

바람직하게는 없습니다. 핸들러를 수행하려면 백엔드 또는 "중간 선"에서 수행하는 것이 좋습니다. –

답변

1

어떻게 태그가 아직 종료되지 않은 찾을 수있는 동적 콘텐츠를 처리하고, 마지막에 추가하거나 필요한 경우 (적절한 태그 중첩을 보장하기 위해) (스택을 사용하여)에 대한? 그러나이 방법을 사용한다면이 작업 클라이언트 측을 수행하는 것이 좋습니다.

+0

클라이언트 쪽에서이 작업을 수행하면 JavaScript가 문서 준비 상태로 실행되므로 페이지가 깜박입니다. BeautifulSoup (Python)을 사용하여 서버 측에서이 작업을 수행하는 방법을 이미 알고 있습니다. HTML에서 불필요한 처리를 사용하지 않는 방법이 있는지 궁금합니다. –