웹 페이지에서 href의 모든 값을 얻으려면 simple_html_dom.php
을 사용합니다. 이 내 코드입니다 :simple_html_dom.php를 사용하여 'a'태그에서 실제 링크를 얻는 방법은 무엇입니까?
<?php
include_once('simple_html_dom.php');
$url=$_GET['url']; //this is the target website address (for example, http://127.0.0.1/mysite/default.php?url=https://www.google.com)
if($url){
$html = file_get_html($url);
foreach($html->find('a') as $e) {
echo $e->href . '<br>';
}
}
?>
하지만 .. 문제가 출력됩니다. 다음과 같은 출력 : /about
, /domains
등 또는 //en.wikipedia.org
, //ro.wikipedia.org
등등.
출력을 표준 URL로 변환하는 방법 (예 : http://www.example.com/about
또는 https://www.example.com/page
)? 이 같은
직접 'HTML'텍스트를 구문 분석합니다. 그래서'/ page'를 쓰면'https : // www.example.com/page'을 얻을 수 없습니다. 도메인이나 프로토콜을 수동으로 추가해야합니다. 누락 된 부분을 확인하려면'parse_url' 함수를 사용하십시오 –
그리고 어떻게 만들 수 있습니까? –
답변을 참조하십시오. –