2014-05-15 3 views
0

웹 페이지에서 데이터를 긁어 야합니다. 문제는 콘텐츠가 div 또는 다른 태그에 포함되어 있지 않다는 것입니다. 내가 필요한 데이터의 덩어리를 구분하는 유일한 요소는 다음 표입니다. ID도 클래스도 없지만 테이블에있는 이미지 만 포함되어 있습니다.간단한 html dom은 테이블을 구분 기호로 사용하여 html을 청크로 나눕니다.

<table width="100%" border="0" cellpadding="0" cellspacing="0"> 
    <tr> 
    <td width="97%" height="25"> 
     <hr size="2" noshade color="7B4023"> 
    </td> 
    <td width="3%" height="25"> 
    <img src="../../images/term.gif" width="20" height="20"></td> 
    </tr> 
</table> 

html을 분리 기호로 사용하여 청크로 분할하는 방법을 생각해 볼 수 있습니까? 미리 감사드립니다. 세바스티안

귀하의 예를 들어

답변

0

, 당신은 문자열 $ HTML에 preg_split를 사용할 수있는 간단한 HTML DOM에 웹 페이지를로드 한 후 다음의 구분 기호를 유지하기 위해 내가 preg_split을 사용

$chunks = preg_split("/(<table)/",$html,null,PREG_SPLIT_DELIM_CAPTURE); 

foreach ($chunks as $chunk) { 
    echo $chunk; 
} 

대신 폭발 덩어리도.

+0

아니요, html을 구분 기호로 사용하여 청크로 구분하고 싶습니다. – sms

+0

그러면 'table td'를 'table'로 변경하고 innertext를 outertext – johnh10

+0

으로 변경하십시오. 내 페이지가 아닙니다. 내가 관리하지 않는 웹 페이지에서 콘텐츠를 긁어 야합니다. – sms