HTML Agility Pack을 사용하면 메모장에 붙여 넣은 것과 같은 HTML 결과에서 모든 HTML 특성, 요소 등을 제거 할 수 있습니까?HTML 민첩성 팩을 사용하여 일부 또는 모든 HTML 요소 및/또는 속성을 제거하려면 어떻게합니까?
또한 모든 서식을 제거해야하지만 UL/LI 및 B 태그를 유지해야합니다.
HTML Agility Pack을 사용하면 메모장에 붙여 넣은 것과 같은 HTML 결과에서 모든 HTML 특성, 요소 등을 제거 할 수 있습니까?HTML 민첩성 팩을 사용하여 일부 또는 모든 HTML 요소 및/또는 속성을 제거하려면 어떻게합니까?
또한 모든 서식을 제거해야하지만 UL/LI 및 B 태그를 유지해야합니다.
HtmlDocument 인스턴스에 html을 입력하면 DocumentNode 속성에서 반환 한 HtmlNode를 가져올 수 있으며 거기에서 문서 노드의 InnerText 속성을 가져올 수 있습니다. HTML 태그가 제거 된 모든 텍스트를 제공합니다.
필터링에 노드의 특정 하위 집합 만 포함하려면 좀 더 어려워 질 것입니다.
먼저, HtmlDocument 인스턴스에 내용을로드하고 DocumentNode 속성에 의해 반환 된 HtmlNode 인스턴스를 가져옵니다 (이 문서의이 노드를 루트 노드라고합니다).
동시에 새 문서를 포함 할 두 번째 HtmlDocument 인스턴스를 만들 수도 있습니다.
첫 번째 문서에, 재귀 루트 노드를 통해 반복하는 것입니다 (그것이 실제 재귀 방법이 될 필요가 없습니다,주의, 그러나 의미는 재귀 행동 것), 노드를 분석하고 그것의 모든입니다 자식 노드.
노드 자체가 사용자가 승인 한 노드 중 하나 인 경우 해당 노드의 새 인스턴스를 구성하기 시작합니다.
그러나 그렇지 않은 경우 텍스트 노드 내용 (노드 자체가 노드이기 때문에)을 가져 와서 현재 노드가 스택에있는 모든 노드에 추가합니다 (해당 노드가 있으면 하나입니다.)
안녕하세요, 제 질문을 조금 확대했습니다. 제발 이것에 대해서도 의견을 말할 수 있는지 확인하십시오 – kaivalya
@kaivalya : 질문과 대답을 업데이트했습니다. – casperOne