2014-05-12 3 views
0

작업 : HTML 페이지를 가져 와서 간단한 텍스트에 사용할 수있는 서식 지정으로 텍스트 만 유지 : 따라서 <br> 태그가있는 경우/r/n, 테이블이 있다면 -이 테이블의 초기 구조를 결과 텍스트에 유지하고 싶습니다.HTML 코드를 텍스트 파일로 사용할 수있는 일반 텍스트로 변환

는이 내장되어있다가 스타일과 스크립트의 내용을 유지하고 <br>, <table> 및 기타 태그를 삭제 서식을 유지하지 않으므로 정말 내 요구 사항에 맞는되지 PHP 함수 strip_tags().

나는 또한 stack question 'strip html,css from string'을 읽었지만 내가 찾고있는 답변이 없습니다.

기본적으로 HTML 페이지를 링크 및 이미지가없는 TXT 파일로 렌더링하는 방법을 찾고 있습니다. 가능한가? 이 일을하는 도서관이 있습니까?

답변

2

당신이 할 수있는 한 가지 방법은 반대 Markdown을 할 수 있다는 것입니다. 마크 다운에 대한 HTML 구현이 많이 있습니다. 원하는 작업을 수행 할 수 있습니다. 그들은 HTML을 텍스트 등으로 변환합니다.

이러한 구현 중 하나는 html2markdown입니다. 그것은 NodeJS를 사용하고 방금이를 추가해야합니다 : 그것은 문자의 수를 적게 가지고 사촌 쉽게 인하-제거 할 수있는,

html2markdown("<h1>Hello markdown!</h1>") 

이 적어도,이 태그를 제거하고 당신에게 텍스트로 결과를 제공합니다 #---을 말하십시오.

PHP에서 html2markdown을 구현 한 번 더 GitHub에 있습니다.

$html = "<h3>Quick, to the Batpoles!</h3>"; 
$markdown = new HTML_To_Markdown($html); 

그리고 이것은 당신을 반환합니다 : 구문은 다시 간단

echo $markdown; // ==> ### Quick, to the Batpoles! 

이 플러그인은 너무 태그를 제거하는 능력이 있습니다

$html = '<span>Turnips!</span>'; 
$markdown = new HTML_To_Markdown($html, array('strip_tags' => true)); // $markdown now contains "Turnips!"