텍스트 파일에서 BeautifulSoup 태그를 제거하십시오.

bs4이 설치되어 있습니다. 텍스트 파일에서 HTML 태그를 어떻게 제거합니까? 간단히 말해, ESRI 메타 데이터 항목을 해당 메타 데이터의 HTML 페이지에서 텍스트 파일로 쓰는 스크립트가 있고이 항목의 몇 가지 경우 HTML 형식 코드도 어떤 이유로 기록됩니다. BeautifulSoup을 사용하여이 코드를 제거하려면 어떻게해야합니까? 엉성한 것처럼 보입니다. Textfile 텍스트 파일에서 BeautifulSoup 태그를 제거하십시오.

출처

2017-12-27 Pfalbaum

예상되는 출력은 무엇입니까? 지금까지 시도한 내용은 무엇입니까? – johnII

'soup.text' 시도 –

html 태그없이 해당 데이터를 추출 하시겠습니까? –

이의 w3lib library, bs4의 필요없이 사용 :

from w3lib.html import remove_tags 

text = "your text" 
new_text = remove_tags(text)

출처

2017-12-27 18:18:18 eLRuLL

@eLRuLL 감사, 태그를 제거하는 위대한 작품을

이 첨부 파일의 설명 항목은 HTML이있다. 그러나이 스크립트를 사용하는 메타 데이터 설명 중 일부는 꽤 길며 텍스트를 변수로 입력하는 것은 나쁜 생각처럼 보입니다. 그 이유는 다음과 같습니다.

import arcpy 
import arcpy_metadata as md 
from w3lib.html import remove_tags 
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY' 
metadata = md.MetadataEditor(ws) 
def meta2txt(): 
    abstract = metadata.abstract 
    if abstract: 
     w3lib.html.remove_tags(abstract)

스크립트는 실행되지만 HTML은 여전히 존재합니다.

출처

2017-12-27 20:25:39 Pfalbaum

귀하의 질문을 해결해 주셔서 감사합니다. 기뻤습니다. – eLRuLL

텍스트 파일에서 BeautifulSoup 태그를 제거하십시오.

답변

관련 문제